发布时间:2024-04-23
在4月2日的「2024中国人形机器人生态大会」上,多名人形机器人产业链企业代表齐聚,就人形机器人产业前沿话题,市场风口与落地方向等维度作了精彩分享。 portant; overflow-wrap: break-word !important; font-family: 微软雅黑; visibility: visible; font-size: 15px;">portant; overflow-wrap: break-word !important; visibility: visible;" /> portant; overflow-wrap: break-word !important; font-family: 微软雅黑; visibility: visible; font-size: 15px;">其中,科大讯飞开放平台研发总监刘可为围绕「多模态+大模型,构建人形机器人新交互」这一主题,展开了主题演讲。 portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important; font-family: 微软雅黑; color: rgb(136, 136, 136);">以下是本次演讲实录,「中国机器人网」整理删改: portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">在过去一年半时间里,伴随着大模型的横空出世,人工智能在全社会取得广泛关注。过去我们认为人工智能是高高在上,不接地气,是某些高端应用锦上添花的功能模块。现在,人工智能开始真正走向大面积生产和实践,以大模型为代表的通用人工智能发展正在快速推动我们进入第四次人工智能浪潮。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">人工智能的发展尤为瞩目,特别是以具身智能为代表的人形机器人,已经成为人形机器人发展的重要和头部力量。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">其实,这种新的趋势正在推动着机器人走向更纵深的应用场景。这种更纵深的应用场景意味着用户对于机器人的要求越来越高,特别是当整个机器人的形态从传统的机器人开始向人形机器人转变时,这就要求我们的人形机器人一定要具备一套非常强大的人机交互系统。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;">人机交互说出来是比较泛的概念,它的使用门槛非常高。如果每一家机器人厂家都从0到1研发,超多研发资源的投入与获得的成效往往不成正比。所以,业内急需一套规范标准面向未来人形机器人的交互解决方案。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">我今天带来的就是这样一套解决方案。它由三个部分构成,首先是视听融合的感知交互,然后是基于大模型的机器人大脑,以软硬件一体的形式进一步做了封装,使得机器人厂家集成我们这套产品时能够变得更加便捷。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">首先是感知,要想和机器人实现智能的交互,第一步就是让机器人能够听清我们的交互内容。现在整个机器人的交互依然是基于麦克风阵列,它通过我们的波束对内部声音进行做增强,外部声音做抑制。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">但是,传统的算法波束形成角度太宽,它所带来的最直接影响就是主说话人两侧的噪声很容易录进去,导致机器人在稍微复杂的环境下几乎不可用。portant; overflow-wrap: break-word !important;">我们加上了神经网络,从而大幅限制了正向方的角度,从60度变成30度,两侧的噪声得到了抑制,能够在比较恶劣的场景下实现比较好的交互。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">前面提到的窄波束,经过时间的验证能够比较好地抑制两侧的噪声。但是,在实际生产过程当中,前后人声的噪声则是更为普遍和棘手的现象。一来,这种现象广泛存在于生产当中,除了非常安静的家居环境下,鸡尾酒环境攻克难度非常难,依靠传统的声学比较难做到提升。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">我们加上了摄像头,通过引入人脸,实时进行嘴巴检测和实时声音检测,录音信息加上物体跟踪,这三个系统进行融合,画面中只听他的声音,其他人声音完全屏蔽掉。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">如何让机器人听得更清?我们拿机器人做语音交互更多需要把音频转成文字,大模型对于语义体现业内都有目共睹,它的整套基于神经网络大模型的方案,为我们做语音相关的能力提供了非常好的技术路线和思路。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">传统语音识别模型的参数和体量非常有限,我们现在可以做到多语种的联合建模,实现多种语言的识别,而且通过多语种的联合建模,还得到了意外的呈现,因为大模型具有足够大的视野和窗口,能够看到上下的信息,我们把语义识别带到语音识别当中,使语音识别内容更加提升。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">现在我们的讯飞星火语音识别大模型,已经远远超过了我们讯飞基线的效果。无论是音质、音色还是流畅度,几乎可以媲美专业主播的声音。越是完美无瑕的声音越容易给顾客产生距离感,科大讯飞构建了超拟人口语化的合成,具备拟人化程度,能够模拟人对话情况下的思考停顿等。portant; overflow-wrap: break-word !important;">交互链路变长了,使得我们整个交互时间控制在200毫米以内,真正达到商用水平。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">讯飞超拟人语音合成技术更加有人情味,如果我们的机器人都能够发出这样的声音,它传递给用户的就不再是冷冰冰的数据信息,而是情感和思想的共鸣。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">前面讲到语音合成,下面我们讲一下发言人的定制。如果想定制自己特色的声音需要多少的成本和多长的周期?针对这样的问题,我们现在的目标是只需portant; overflow-wrap: break-word !important;">要一句在30字以内的话,portant; overflow-wrap: break-word !important;">就可以生成专属于你的发言人,同时基于这样的音色复刻4种语音。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">前面我们提到都是基于对话机器闲聊的场景,比如说陪伴型机器人需要给我们讲长故事,短文本我们更多关注它的口语化、亲近感,长文本我们更多需要有上下文的理解,基于上下文的理解将整个故事说得绘声绘色。我们实现了整个长文本的合成在音质、音调和情感转折上都能够达到拟人化程度非常高的水平,真正实现声情并茂。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">现在机器人众多,场景也非常复杂,如何将这些能力整合起来?portant; overflow-wrap: break-word !important;">我们通过已有的AI传感能力形成的一套多模态交互下的指导规范,能够比较准确地根据客户的需求和场景快速地帮他定制出一套比较贴合的多模态的交互逻辑,让整个机器人的交互变得更加自然,这是基于多种模态的技术应用,构建机器人内容的交互范式。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">前面需要的是基于视频感知交互,那么怎么样将大模型超强的语义理解用到机器人上?一方面是理性的部分,希望机器人帮我们完成特定的任务,包括信息查询、指令操作等;另外一方面,我们对机器人有感性的诉求,希望机器人能够进行多轮的对话,并且感知我们的情绪,结合我们的情绪提供情感的呵护和陪伴。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">基于整个人机对话领域,我们做了定向增强大模型。作为讯飞机器人大模型的底座,它的输出会更加的贴近人机交互产品的输出。这里需要强调的是我们的星火交互大模型。星火交互大模型深度融合到过去人机交互的链路,不同功能模块对应单点的大模型,最后形成人机交互体系。通过这样一套体系可以实现:既保留原有语音交互准确性,也大大放大了它的对话能力。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">文档知识问答大家比较熟练了,我们这套文档问答体系比较核心的特点:针对人机交互的特点,定制了线下检索模型,大幅度提升了检索效率,并且有一些关键词和知识干预,后续也会进一步升级。因为大模型本身具备的知识理解和对话能力,整个闲聊对话体验就会变得非常自然。我们现在说的智能交互产品,风格化和情感化是核心非常重要的点。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">什么样的产品叫智能化产品?不同的定制化产品体验是智能化产品的重要点,星火交互大模型里内置了星火有伴,使得这一套大模型不仅和用户有风格和情感化的对话聊天,并且能够形成用户短时和长时的记忆。同时,portant; overflow-wrap: break-word !important;">我们为这套记忆设定衰减参数,完全模拟人的交互体验,真正让机器人有了灵魂,这是在风格化和AI人设化做的一些工作。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">最后我们再来看一下软硬件接入一体的解决方案,人机交互非常复杂,为了降低接入门槛,它的算力足够支撑人形机器人的应用。人机交互的算法全部集成到这一套模组上面,支持二次开发。整套的所有技术平台和能力,背后都是依托于讯飞的超脑平台,坚持面向机器人提供多模态的感知交互、开放式语义理解以及软硬件的交互方式。 portant; overflow-wrap: break-word !important; font-size: 15px; font-family: 微软雅黑;">portant; overflow-wrap: break-word !important;" /> portant; overflow-wrap: break-word !important; font-size: 15px;">portant; overflow-wrap: break-word !important;">我们深知机器人产业的发展离不开整个生态,因此,我们坚持共生共创共享的理念,包括工业设计大赛,开发者论坛,服务市场,创业孵化等等,通过一系列丰富多样的活动和大家形成紧密的关系。在未来,我们将portant; overflow-wrap: break-word !important;">通过讯飞倡导2030年计划不断加强技术和产品创新,联合大家一同探索人机合作的无限可能。