阿里云宣布自研EMO模型上线通义App-用照片加音频生成唱歌视频

2024-04-26 09:05:18发表 作者:呆兔17K

阿里云宣布自研EMO模型上线通义App,用照片加音频生成唱歌视频。EMO:阿里研发的AI肖像视频生成系统,以单图+音频创造表情生动、头部动作丰富的视频。现已免费上线通义App,支持选模板、传照片合成表演视频。首批80多模板含热门歌曲、网络热梗。特点:音频驱动、高逼真度、无缝帧过渡、身份保持、稳健控制、灵活时长、跨语言与风格。

通义App新闻详情

EMO(EmotePortraitAlive),是由阿里巴巴集团智能计算研究院研发的一个音频驱动的AI肖像视频生成系统。该系统能够仅凭借一张参考图像与一段语音音频,创造出包含丰富表情与多样头部动作的视频内容。

今日,阿里云宣布通义实验室研发的AI模型——EMO已在通义App正式上线,并向全体用户免费开放使用。用户现在可选择歌曲、网络热梗或表情包模板,在上传个人肖像照片后,利用EMO功能合成表演歌唱的趣味视频。

阿里云宣布自研EMO模型上线通义App

通义App首批上线了超过80款EMO模板,涵盖热门歌曲如《上春山》、《野狼Disco》,以及网络流行语“钵钵鸡”、“回手掏”等,但目前尚不支持用户自定义音频上传。

阿里云宣布自研EMO模型上线通义App

EMO的主要特性包括:

-音频驱动的视频生成:EMO能够直接依据输入的音频(如语音或歌声)实时生成对应视频,无需依赖预先录制的视频片段或复杂的3D面部模型。

-高表现力与逼真度:生成的视频具备极高的表情表现力,精准捕捉并重现人类面部细微表情变化,包括微妙的微表情,以及与音频节拍同步的头部动作。

-无缝帧过渡:EMO确保视频帧之间过渡自然平滑,有效避免面部失真或帧间晃动现象,显著提升整体视频质量。

-身份保持:通过FrameEncoding模块,EMO能够在生成过程中始终保持角色身份一致性,确保角色形象与输入的参考图像完全吻合。

-稳健的控制机制:系统采用速度控制器与面部区域控制器等稳定化技术,强化视频生成过程的稳定性,防止生成过程中出现崩溃等问题。

-灵活的视频时长:EMO可根据输入音频的长度自适应生成任意长度的视频,赋予用户充分的创意自由度。

-跨语言与跨风格:EMO的训练数据集覆盖了中文、英文等多种语言,以及现实主义、动漫、3D等多种风格,使其能够适应不同文化和艺术风格的需求。

0
网友评论
  • 😊
  • 😂
  • ❤
  • 😭
  • 😍
  • 😘
  • 🙄
  • 💀
  • 😫
  • 🤔
没有符合条件的内容