对话搜狗陈薇:AI合成主播下一步将如何进化?

2018年底,第五届世界互联网大会上,新华社和搜狗发布的全球首个AI合成男主播“克隆”真人主播邱浩的“首秀”,迅速引发各地热议。世界。

陈伟,搜狗语音交互技术中心中层经理,也是新华社AI主播项目负责人。 他说,今年11月至今,新华社的两位人工智能主播已播报数千条新闻搜狗推广效果好吗,没有出现任何差错。

对话搜狗陈薇:AI合成主播下一步将如何进化?(图1)

去年2月19日,男主播升级为半蹲式AI合成主播“辛小豪”。 半蹲着的“新小豪”不仅可以坐着播报新闻,还可以站起来,手势、姿势等肢体动作更接近真人。 同时,两方还推出了首个AI合成女主播“新小萌”。

在新华社,基于两位真实主播的声音、表情等真实数据生成模型,工作人员只需输入新闻稿,然后AI图像即可根据文字手动播报。 而且,无需对视频进行二次编辑,AI主播会手动识别语义,匹配对应的响度和表情。

“利用我们提供的系统,新华社每晚只需要在几秒钟内生成一个完整的视频来播放它想要播放的新闻,并且可以立即下载不同类型的英文和英文新闻视频。” 陈伟说道。 我们看到AI主播的能力在不断进化。 2月份上映的《新小豪》开始加入肢体动作,让主播的表现方式更加多元化。

AI合成主播来自于搜狗AI分身项目的落地。 基于多种模态识别技术的融合,包括语音、手写、唇语等维度的识别和模拟,只需要几个小时的视频数据就可以合成出更加真实的视频。 真人图像。

“保真度”是判断AI主播功效的重要指标。 陈薇告诉机器之心,早期团队采用主观的形式来判断AI克隆的真实性,最近逐渐考虑使用一些客观的标准,比如与AI克隆的每一帧进行比较。现实生活中的视频。

目前,AI主播早已能够同步语音和唇形。 陈薇表示,更进一步,客户已经提出了更细节的交互,比如微表情,比如扬眉、转头看。

据陈薇透露,去年将推出AI主播互动功能。 在图像层面,将考虑2D+3D技术融合搜狗推广效果好吗,在语音合成的基础上引入理解自然语言的能力,让AI克隆具备认知能力。

AI合成主播的价值主要在于解决新闻播出的效率。 新闻需要快,所以可以手动生成广播视频的AI主播的时效性得到了保证; 据悉,AI主播的出现也将直播主播从大量复杂的播音工作中解放出来,投身于采访和深度新闻报道项目。

据介绍,搜狗AI分身项目已经具备快速稳定落地的能力。 从语音识别到合成、唇语识别,再到图像表情生成、肢体生成等,团队已经构建了完整的流水线工作体系。 在新闻主播领域之外,搜狗也在推动与更多行业、领域场景的融合。

陈薇表示,该项目的实施将从媒体扩展到客服、教育和一些娱乐场景。 比如正在进行的AI综合老师。 在线公开课场景中,教师输出内容多为两个方向。 在这些情况下,老师只需要准备教案和稿件,并通过AI合成图像生成多个视频内容。

在语音行业,交大讯飞和谷歌都在探索多模态识别技术。 具体来说,在新华社项目的商业合作中,搜狗有哪些差异化优势值得认可?

陈伟认为主要体现在两个方面。 一是项目的实际成效。 在与新华社的通讯项目阶段,AI克隆距离的实施已经比较成熟。 二是技术可以快速复制推广到多人、多领域。 能力。 “其他公司的项目和搜狗的项目还是有明显区别的,而且大多处于实验室研究的状态。” 陈伟介绍。

目前,新华社的人工智能主播主要以单一频道运作。 如果想要传播到更大的媒体渠道,高并发的要求会给云调度带来一定的挑战。 陈薇表示,搜狗目前提出了两种解决方案,其一是提供公有云服务;其二是提供公有云服务。 另一种也支持部署在企业本地私有云服务器上。 “我们的服务在资源占用和实时性方面都能满足要求。”

对话搜狗陈薇:AI合成主播下一步将如何进化?(图2)

近日,一部“杨幂换脸版”的《射雕英雄传》在网络上广泛流传。 关于AI换脸和模拟现实技术的讨论已经上升到社会层面,例如将技术用于不正当目的的伦理问题。

陈薇对此作出回应。 首先,“分离”和“变脸”在技术层面上有着本质的区别()。 “换脸其实就是将一张脸映射到另一张脸。但‘克隆’一旦建模,只需要输入文字就可以生成视频,没有任何性能成本。”

在规范技术使用问题上,陈薇表示,“搜狗选择与明确的公司、明确的领域合作,尽量通过场景来划定技术使用的范围,这样就不会滥用技术。”

部分文章来自互联网,如有侵权请联系删除。发布者:28预订网,转转请注明出处:https://www.28368.cn/tuiguang/3390.html