从“嘴唇同步”到“性能”,最近进化的数字人透露了技术。

从“嘴唇同步”到“性能”,最近进化的数字人透露了技术。

机器的心脏被释放。机器社论部门的核心打开并关闭了数字人士的声音嘴唇。更令人兴奋的是,当明亮的旋律发出时,您的嘴巴自然抬起角落和微笑。进入圈段后,用节奏的节奏波动,肩膀和手臂可以节奏地进行大气。观众所看到的不仅是在移动嘴,而且在扮演整个人。此操作不仅限于某些剪辑,而且可以在较小级别的长视频中继续稳定,从而在整个时期保持自然柔软的运动。最近,Kuahou Keling的团队将这个想法带入了现实。现在可以在Beta公众的Kering平台上获得新的数字人类特征,目前正在逐渐增加。克林 – 阿瓦塔尔技术报告和Proye Home Pagecto也将同时发布。报告系统分析了Keling Digital的技术路线人类解释了如何发展可以跟踪声音和嘴唇的模型,这使其成为可以根据用户的意图清楚地表达它们的解决方案。 Kering数字人类产品界面。 Website: https://app.klingai.com/cn/ai-human/image/new paper address: https://arxiv.org/abs/2509.09595 Project Home Page: https://klingovatar.github.io/first https://mp.weixin.qQ Multimodal understanding and converts instructions into processable stories.克林 – 阿瓦塔尔(Kling-Avatar)具有将发电和理解与大型多模式模型集成在一起的能力,并设计了多模式主管模块(MLLM主管)。这在一个清晰的故事中组织了三种类型的信息。音频内容和音频的情感轨迹扩展了它。肖像的特征和图像中场景元素的标识。当您整合用户文本时,将要求您提供动作模式,镜头语言,情感变化和其他元素。结构化描述导演模块生成的图的n通过整个注意力层的文本注入了视频传播模型,在全球范围内生成了一个计划的视频,阐明了整个内容的节奏,样式和关键节点。克林 – 阿瓦塔尔解决方案框架。 MLLM导演由多模式领先语言模型(MLLM)授权,首先解释多模式指令,例如全球语义和相干故事,根据该全球计划生成计划的视频,将Marcos de Cabeza和Blueprint视频尾巴提取为条件控制,并随后在后续摄像中生成。在生成由两个阶段瀑布产生的长视频生成框架之后,该系统将根据身份的一致性,动作多样性,避免闭塞和清晰的表示,在视频传输中自动选择几个关键质量钥匙质量。每两幅相邻的绘画用作头部状况和尾巴f漫不经心地生成子部分。根据所有项,每个项的头部和尾框并行合并,最后完整的视频缝合在一起。为了避免在真实音频节奏中的第一和最终图片和图像之间的不一致性,此方法还引入了一种策略,以插入音频对齐框架,以确保在嘴唇和声学节奏之间的框架级别上同步。此外,Theteam仔细设计了一系列培训和推理策略,以确保视频生成过程中音频和嘴唇身份的一致性。嘴唇形状的对齐:将音频分为适合帧段的子播种,并通过幻灯片窗口注入音频功能。自动检测到口腔区域中提取加权的损失。手动扩展视频框架,以改善图像对齐的效果长距离场景甚至更多的产品适应性。文本可控性:基于特殊数据重叠基本生成模型,并通过注意力层的参数冻结文本,以避免削弱文本的控制。身份一致性:参考图像构建在推论中,作为负CFG抑制了身份推导模式,例如纹理图和饱和漂移。培训和执行评估数据以获取多样化和高质量的培训数据,团队编制了数千个小时的高质量语料库视频,例如语音,对话和歌曲,并培训了几种专家模型,以检测多个维度数据的可靠性,例如澄清口腔,语音同步和患者的透明度。专家模型排除的视频将手动审查,以提供数百小时的高质量培训数据集。为了验证该方法的有效性,设备创建了评估n参考点,包括375个“参考图像 – 音频文本指示”。评估参考点包括大量的输入样本,这些照片涵盖了由真实/AI产生的图像,即原位的图像,几个不现实的个人职业和数据。音频涵盖了中文/英语/日语/韩国语言,其中包含具有情感的不同音速和线条。文本指示包括几个镜头,人物的动作和情感表达。该评估参考点提供了现有方法的非常具有挑战性的测试方案。这允许完整评估多模式说明中数字肖像视频的方法的能力,并将在将来成为开源。从定量验证的角度比较实验结果时,团队根据用户偏好仔细设计了GSB评级系统(好/等于/糟糕)。对于每个样本,三位审稿人比较了克林·阿瓦塔尔with The Comparison Method, Making The Decision “Better” (G) and “Same” (WoSe “(B). The final report (g+s)/(b+s) is usas an indicator to measure the percountage of “Better or Worse”. At The Same Time, The Results of the Sub-Aems Are Shown in Four Dimensions: Overall Effect, Lip Sync, Image Quality, Command Response, and ID CONSISTENCY.MASU. Comparison methods to select avant-garde products such作为Omnihuman-1,Heygen与GSB的GSB相比,与GSB的GSB相比,Omnifman-1和Heygen的GSB可视化。 Kling-avatar不仅与时间和形状的音频一致,而且由于语音波动而使面部表达更加自然。[truːθ],[u:],其中[u:]这是高频声音,克林的头像可以准确地恢复相应的唇形。关于三种类型的控件:“情感,动作和镜头”,克林 – 阿瓦塔尔可以更精确地反映文本消息的意图,而在复杂场景(例如歌曲和演讲)中的动作和镜头程序与语义符合语义。下图显示了克林·阿瓦塔尔(Kling-Avatar)生成的一些视频示例。这包括对“情感”和镜头控制等角色的情感控制,例如“镜头缓慢移动”,所有这些都反应良好。克林 – 阿瓦塔尔(Kling-Avatar)的另一个重要优势是生成长期视频。平行生成两阶段的生成 + CascadeAnd将其完美地拼接在一起。总生成时间在理论上等同于代际时间,这使得生成快速而稳定。下图显示了一个一代一分钟的视频生成的示例,通过生成的结果,通过动态,身份一致性,唇形等取得了令人满意的结果。摘要:从“口头唇膏”到“性能性能”,Kuahou Keling团队拥有新的数字生活范式,并对电影和电视级别进行了解释。 Kling-Avatar目前已集成到Keling平台中。转到Kering平台体验数字人类应用的新版本,并查看如何一次解释声音和想法。近年来,Kuahou Keling的团队继续加深人类代理的数字解决方案,以控制和理解多模式命令。除了克林·阿瓦塔尔(Kling-Avatar)外,团队还提出了数字生命生成框架,这是一种实时的多模式互动控制。这两个分别通过“深度表达”和“响应速度”取得了重要进步。将来,该团队将继续在高处促进Avant -Garde探索解决方案,良好的运动控制和对复杂多个圆形命令的理解,这使数字人的每个表达都成为现实而动人的灵魂。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:先前的内容(如果有照片包含照片)已由NetEase Hao的用户(社交网络的平原形式)收费和发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注