比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

发布时间：2024-05-28 11:00:35 编辑：来源：

导读相信很多大家对比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作还不知道吧，今天菲菲就带你们一起去了解一下~.~！ 5月2...

相信很多大家对比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作还不知道吧，今天菲菲就带你们一起去了解一下~.~！

5月28日消息:最近，对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展，但在控制和传达形象的细节表情和情感方面仍有不足，使生成的视频缺乏生动性和可控性。

因此，北京大学的研究团队提出了一种名为 InstructAvatar 的新颖方法，通过自然语言界面来控制虚拟形象的情感和面部动作，从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括：

通过自然语言输入控制头像的情绪和面部动作。

利用一个自动注释管道构建训练数据集，使得头像可以根据文本指令和音频进行生成。

生成的头像能够准确同步口型，表情自然且生动。

相比于现有方法，在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。

InstructAvatar 的框架包括两个组件:变分自动编码器（VAE）和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦，并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中，通过迭代去噪高斯噪声来获取预测的动作潜变量，并结合用户提供的肖像，使用 VAE 的解码器生成最终的视频。

通过与基线模型的定性比较，可以看出 InstructAvatar 在唇同步质量和情感可控性方面取得了良好的效果。此外，模型生成的结果具有增强的自然性，并有效地保留了身份特征。

值得一提的是，该模型仅基于文本输入推断说话的情感，这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围，超出了大多数基线模型的范围。

此外，该模型展现了精确的情感控制能力，并生成了自然的结果。InstructAvatar 具有细粒度的控制能力，并在领域之外的场景中表现出良好的泛化能力。

项目入口：https://top.aibase.com/tool/instructavatar

以上就是关于【比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作】的相关内容，希望对大家有帮助！

比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

免责声明：本文由用户上传，如有侵权请联系删除！

上一篇

下一篇

相关阅读

vivo X100 Ultra今日开售：6499元起

赵明回应荣耀和雅顾合作：单纯的联名没有价值

马斯克的 xAI 融资 60 亿美元，估值达 240 亿美元

Windows新功能将允许用户从Android照片中提取文本

降噪黑科技Look Once to Hear！只需看一眼说话的人除了他以外的声音就消失了

苹果的“Greymatter 项目”将是普通用户在日常中可使用的AI工具

苹果的“Project Greymatter” 旨在利用AI为日常生活带来便利

“数字中国”前瞻：谁是AI大模型时代的驯龙高手？

深谈618:超头乏力，新老平台“厮杀”

文字生成手语视频大模型SignLLM 帮助听障人群实现无障碍沟通

最新文章

比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

洋参片有什么作用（洋参片泡水功效）

《庆余年2》热播：范思辙摘不掉的大金项圈引发热议

绘画大赛获奖作品（绘画大赛）

宝马工厂“机器狗”SpOTTO 上岗可“嗅探”过热故障和压缩空气泄漏

掏裆竟然也是竞技运动（自编长篇掏裆故事）

生命生命阅读（生命生命阅读答案）

华为畅享 70S 手机今日开启预售：售价 1199 元起

研究发现：生成式人工智能正在迅速进入媒体和娱乐行业

共享网络打印机设置方法（共享网络打印机设置）

热点推荐

绘画大赛获奖作品（绘画大赛）

关于勤奋的名人的事例简短（勤奋的名人事例）

穿越柯南之boss是我哥（柯南里boss是谁）

绝色神偷蜘蛛戴手套（绝色神偷蜘蛛）

鱼翅的图片与价格（鱼翅）

李易安与酒文化的关系（李易安）

英语人称代词主格宾格所有格（英语人称代词主格宾格表）

降噪黑科技Look Once to Hear！只需看一眼说话的人除了他以外的声音就消失了

力帆k19太子摩托车参数价格（太子摩托车报价及图片）

肛瘘是什么原因引起的（肛瘘）

中国恩菲工程技术有限公司怎么样（中国恩菲工程技术有限公司）

王冕僧寺夜读题目及答案（王冕僧寺夜读阅读答案）

杉木指接板价格（杉木指接板）

俗语打太极什么意思（说人打太极是什么意思）

陕西省医学考试中心官网（陕西省人事考试中心）

精选文章

洋参片有什么作用（洋参片泡水功效）

生命生命阅读（生命生命阅读答案）

研究发现：生成式人工智能正在迅速进入媒体和娱乐行业

北京工业大学就业创业指导中心（北京工业大学就业信息网）

静逸与静谧的读音（谧的读音）

赵明谈荣耀MagicOS信息安全：排在所有应用前面用户自主选择授权

荣耀赵明回应车业务最新进展：竞争很激烈不缺一个荣耀

钟薛高创始人将直播卖红薯已开通淘宝直播账号

网址发布页入口大全（网址发布）

万里无云的拼音（万里无云）

vivo X100 Ultra今日开售：6499元起

赵明回应荣耀和雅顾合作：单纯的联名没有价值

一模考试是什么（一模考试）

不开心的时候怎么办呀（不开心的时候怎么办）

马斯克的 xAI 融资 60 亿美元，估值达 240 亿美元