九游体育-可让照片人物“开口说话”，阿里巴巴研究团队推出 AI 框架“EMO”

发布时间：2024-07-09

IT之家3月1日消息，阿里巴巴研究团队近日发布了一款名为“EMO（Emote Portrait Alive）”的AI框架，该框架号称可以用于“对口型”，只需要输入人物照片及音频，模型就能够让照片中的人物开口说出相关音频，支持中英韩等语言。　　据悉，EMO基于英伟达的Audio2Video扩散模型打造，号称使用了超过250小时的专业视频进行训练，从而得到了相关AI框架。　　IT之家注意到，研究团队分享了几段由EMO框架生成的DEMO演示片段，并在ArXiv上发布了模型的工作原理，感兴趣的小伙伴也可以访问GitHub查看项目。 5f9b662e-1633-4196-b099-de4316713fea ▲图源研究人员发布的DEMO片段　　据介绍，该框架工作过程分为两个主要阶段，研究人员首先利用参考网络（ReferenceNet）从参考图像和动作帧中提取特征，之后利用预训练的音频编码器处理声音并嵌入，再结合多帧噪声和面部区域掩码来生成视频，该框架还融合了两种注意机制和时间模块，以确保视频中角色身份的一致性和动作的自然流畅。　　研究人员援引一系列实验结果，声称EMO不仅能够产生令人信服的说话视频，还能生成各种风格的歌唱视频，号称“显著优于目前的DreamTalk、Wav2Lip、SadTalker等竞品”。-九游体育入口

九游体育-浙江大学团队研发新电池技术，改善电动汽车在极端天气下的性能

九游体育-AI 替代人工编辑首战失败，维基百科不再视 CNET 媒体为可靠信源