AI视频生成工具之D-ID

AI工具

实验中心

2024年05月10日

一、工具简介——什么是D-ID

二、用途分析——D-ID的用途与适用人群

三、D-ID工作原理

四、使用教程与新手指导——D-ID使用指导

五、总结

一、什么是D-ID

D-ID是一个人工智能生成的视频创建平台，可以轻松快速地从文本输入中创建高质量、高性价比和引人入胜的视频。背后的AI技术是由Stable Diffusion和GPT-3提供支持，可以在没有任何技术知识的情况下输出100多种语言的视频。

D-ID的实时人像功能可以从一张照片中创建视频，虚拟口播主持可以提供文本或音频。它的API在数万个视频上进行训练，以产生逼真的结果。

二、D-ID的用途与适用人群

如今人工智能技术逐渐渗透于各个领域，其中虚拟数字人技术更是备受关注。虚拟数字人是通过人工智能生成技术，制作出逼真的虚拟人物，可以用于代替真人进行各种活动，例如主持、代言、演唱、直播、视频拍摄等。D-ID就是一款非常强大的虚拟数字人生成器，只需选定一张人像图片和一段文字或者语音，即可快速生成虚拟数字人视频。

D-ID视频生成工具往往是将静态照片转换为高度逼真的虚拟数字人，将人像、声音和文字智能合成，并最终生成视频。只需要要稍微熟悉操作流程即可快速得到模拟真人讲解过程的视频，无论是对文案讲解还是人物表情都十分逼真，并且可以应用各种语音音频，非常适合想要制作与发布视频又不便于露脸的制作者。

三、D-ID工作原理

作为2023年度爆火的数字视频生成工具，D-ID融合了多种前沿的人工智能技术，包括面部识别与反识别技术、深度学习驱动的图像生成与风格迁移、端到端语音合成以及视频编排与编码技术，旨在为用户提供一种高度定制化、隐私保护且视觉、听觉体验丰富的视频内容生成解决方案。

1．面部识别与反识别

根据D-ID的运行流程与操作步骤，它首先利用先进的面部识别算法对用户上传的照片进行分析，提取关键面部特征点。同时采用反面部识别技术，对这些特征进行扰动或替换，使得处理后的图像能够有效对抗第三方面部识别系统的识别。这个过程中往往需要涉及对抗性扰动、生物特征模糊化等相关技术。

对抗性扰动基于深度学习的对抗攻击原理，通过向原始图像添加精心计算的微小扰动，使面部识别模型误判或无法识别处理后的图像。这种方法通常依赖于生成对抗网络（GANs）或其变种，如差分隐私GAN（DP-GAN），在保持图像视觉质量的同时破坏面部识别特征。

生物特征模糊化则通过像素级操作，如像素化、局部模糊、颜色平滑等，或结构化遮挡如添加虚拟眼镜、帽子等，来降低面部特征的可识别度。这种技术相对简单，但可能牺牲一定的视觉自然性。

2．深度学习驱动的图像生成与风格迁移

如果用户不使用1其自行上传的人像图片而选择进行prompt生成数字人，则需要使用数字人生成（Digital Avatar）技术。D-ID生成的视频中使用的数字人是基于用户提供的肖像信息或文字描述创建的，采用二维人像合成方法，利用条件生成模型将用户提供的肖像信息映射到不同表情、姿态或光照条件下的二维人像图像。这类模型通常基于卷积神经网络（CNN），并利用对抗训练或循环一致性损失来保证生成图像的质量和与输入的对应关系。另外，为了实现用户指定的特定艺术风格或视觉效果，可能应用风格迁移模型如styleGAN等。这些模型通过分离内容和风格表示，在保持人脸结构不变的前提下改变其视觉风格，实现从真实肖像到卡通、漫画、油画等各种风格的转换。

3．端到端语音合成

随后，在进行视频的语音合成时，D-ID将用户输入的文字转化为语音，这个过程包含文本预处理、语音合成模型、声谱图解码器与声码器等技术。

文本预处理需要将文本进行分词、词性标注、语法分析等预处理，形成适合模型输入的序列；语音合成模型是基于深度学习的端到端语音合成模型，常见的有Tacotron、FastSpeech、VITS等模型，可以将文本序列直接转化为声谱图。这些模型通常包含一个文本编码器，以用于捕获文本的语义和韵律信息；声谱图解码器基于Transformer或WaveNet架构，用于生成语音对应的声谱图。声谱图随后通过声码器转换为实际的音频波形，实现逼真的语音合成。

4．视频编排与编码技术

最后需要进行视频编排与编码导出，将生成的面部动画与对应的语音片段精确同步，确保口型与话语内容一致。其中也包括场景布局与动画的设置，需要设计数字人在视频中的位置、动作、背景及过渡效果。随后将编排好的视频序列进行编码（如H.264、HEVC等），确保文件大小适中，同时保持足够的视觉质量。

四、D-ID使用指导

ID的官网链接为：https://www.d-id.com/，通过官网链接进行账号注册登录后，即可免费体验短时间的视频生成功能。

使用步骤如下：点击Create Video按钮，开始制作虚拟数字人视频。

undefined

选定主持人头像时，可以从已有的模板中选择一个数字主持人，或者点击“ADD”自定义上传人脸图片，即可根据图片生成动态视频，可通过界面右上角支持设置背景和宽度。

这里以孔子的人像为例，上传图片，生成一个孔子的虚拟数字人。同时，D-ID还支持Generate AI Presenter，即输入文字来描述一些人物特征，让系统智能生成AI主持人头像。不过相比与平台自带的虚拟人物形象，使用prompt生成的AI Presenter会显得比较呆板。

选定虚拟人物头像后，可在右侧输入想让虚拟数字人说的文案，并选择想要的语言、声音和风格。平台目前支持几十种语言类型，其中中文还区分普通话、粤语、河南话等。并为每个语种下设置了不同角色、不同性别的声音类型，选择其中一种即可。总之，声音可选择性较强，可自行设置调整国家地区语言（甚至有吴侬软语方言），性别（包含不同年龄段的音质），语气（负面和正面情绪）。

五、总结

D-ID是一种高效、灵活、定制化的虚拟数字人物制作的AI工具，能够快速静态照片转换为逼真的虚拟数字人，具有广泛的应用前景和市场需求。例如，企业可以将虚拟数字人应用于营销推广活动中，利用虚拟数字人进行代言、直播、视频宣传等方式，来提高品牌曝光度和影响力。在教育培训领域，D-ID可以用来制作数字教师、数字辅导员等虚拟数字人物，帮助学生更好地学习和掌握知识。在影视制作领域，D-ID数字人技术可以用于制作特效，代替真人进行拍摄，从而降低制作成本，提高制作效率。而对于个体来说，虚拟数字人可以应用于自媒体视频制作，同时也可以提升职场上关于视频内容生产的工作效率。

官方网站：https://d-id.com/（需要科学上网）