新闻详情

字节跳动的AI 模型INFP可以让静态人像“模拟说话”

字节跳动公司宣告推出一种名为 INFP 的人工智能体系,能够让静态的人物肖像相片经过音频输入完成 “说话” 和反响。与传统技能不同,INFP 无需手动指定说话和倾听的人物,体系能够依据对话的活动主动判别人物。该体系经过两个过程作业:首要提取人类对话中的运动细节,其次将音频转换为天然的运动形式。字节跳动的 DyConv 数据集包括超越200小时的高质量对话视频,协助提高体系功能。

字节跳动表明,INFP 在多个要害范畴的体现优于现有东西,特别是在与语音匹配的唇部运动、保存个别面部特征以及发明多样化天然动作方面。此外,该体系在生成仅听对话者的视频时相同体现出色。

← 返回新闻列表