首页 » 软件教程 » 阿里云宣布自研EMO模型上线通义App-用照片加音频生成唱歌视频

阿里云宣布自研EMO模型上线通义App-用照片加音频生成唱歌视频

2024-04-26 09:05:18发表作者：呆兔17K

阿里云宣布自研EMO模型上线通义App，用照片加音频生成唱歌视频。EMO：阿里研发的AI肖像视频生成系统，以单图+音频创造表情生动、头部动作丰富的视频。现已免费上线通义App，支持选模板、传照片合成表演视频。首批80多模板含热门歌曲、网络热梗。特点：音频驱动、高逼真度、无缝帧过渡、身份保持、稳健控制、灵活时长、跨语言与风格。

通义App新闻详情

EMO(EmotePortraitAlive)，是由阿里巴巴集团智能计算研究院研发的一个音频驱动的AI肖像视频生成系统。该系统能够仅凭借一张参考图像与一段语音音频，创造出包含丰富表情与多样头部动作的视频内容。

今日，阿里云宣布通义实验室研发的AI模型——EMO已在通义App正式上线，并向全体用户免费开放使用。用户现在可选择歌曲、网络热梗或表情包模板，在上传个人肖像照片后，利用EMO功能合成表演歌唱的趣味视频。

阿里云宣布自研EMO模型上线通义App

通义App首批上线了超过80款EMO模板，涵盖热门歌曲如《上春山》、《野狼Disco》，以及网络流行语“钵钵鸡”、“回手掏”等，但目前尚不支持用户自定义音频上传。

阿里云宣布自研EMO模型上线通义App

EMO的主要特性包括：

-音频驱动的视频生成：EMO能够直接依据输入的音频(如语音或歌声)实时生成对应视频，无需依赖预先录制的视频片段或复杂的3D面部模型。

-高表现力与逼真度：生成的视频具备极高的表情表现力，精准捕捉并重现人类面部细微表情变化，包括微妙的微表情，以及与音频节拍同步的头部动作。

-无缝帧过渡：EMO确保视频帧之间过渡自然平滑，有效避免面部失真或帧间晃动现象，显著提升整体视频质量。

-身份保持：通过FrameEncoding模块，EMO能够在生成过程中始终保持角色身份一致性，确保角色形象与输入的参考图像完全吻合。

-稳健的控制机制：系统采用速度控制器与面部区域控制器等稳定化技术，强化视频生成过程的稳定性，防止生成过程中出现崩溃等问题。

-灵活的视频时长：EMO可根据输入音频的长度自适应生成任意长度的视频，赋予用户充分的创意自由度。

-跨语言与跨风格：EMO的训练数据集覆盖了中文、英文等多种语言，以及现实主义、动漫、3D等多种风格，使其能够适应不同文化和艺术风格的需求。

⁰

上一篇：蔚来与路特斯汽车达成充换电战略合作-此前已与吉利合作

下一篇：亚洲首个小猪佩奇户外乐园落户上海-2027年开业

相关资讯

最新专题

网友评论

没有符合条件的内容

相关软件

热门攻略

最新攻略

最新手机应用更多

最新手机游戏更多

关于本站 | 下载帮助 | 版权声明 | 网站地图 | 每日最新手机游戏
版权投诉请发邮件到admin#w7ghost.net(请将#换成@)，我们会尽快处理
Copyright © 2015-2023 w7ghost手游(www.w7ghost.net).All Rights Reserved | 备案号：湘ICP备2021016550号-1
本站资源均收集整理于互联网，其著作权归原作者所有，如果有侵犯您权利的资源，请来信告知，我们将及时撤销相应资源