请选择 进入手机版 | 继续访问电脑版
专注物联网产业服务
微信二维码
威腾网服务号
游客您好
第三方账号登陆
  • 点击联系客服

    在线时间:8:00-16:00

    客服电话

    17600611919

    电子邮件

    online@weiot.net
  • 威腾网服务号

    随时掌握企业动态

  • 扫描二维码

    关注威腾小程序

智能语音交互
智能语音交互
智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。典型的应用场景—语音助手。自从iPhone 4S推出SIRI后,智能语音交互应用得到飞速发展。中文典型的智能语音交互应用如:虫洞语音助手、讯飞语点已得到越来越多的用户认可。
  • 双手打字不如语音输入快,百度输入法语音输入评测,真香!
    随着AI音箱的大量上市,传统的冷冰冰的人机交互已经出现了极大的变化,能动口绝不动手就是对AI音箱最大的尊重。毫无疑问,AI音箱的出现促进了AI技术在消费领域的巨大进步,因此也带来了一系列的消费者日常使用习惯的改变,比如笔者最近体验的百度输入法语音输入,直接说话的输入方式在许多场景下都较为实用。提个问题:各位小伙伴觉得双手打字效率更高吗? 界面简洁:上手容易学习成本极低 百度输入法的语音输入并不需要额外安装APP,仅需在百度输入法内长按空格键即可开启语音输入,换言之,百度输入法本身就集成了许多输入模式,其中包括语音输入。 百度输入法的语音输入界面设计比较通俗易懂,长按最下方的按键开启说话,说完松开按键即可生成说话内容,上手非常容易。 在语种选择方面,百度输入法涵盖的内容已经包含多种方言以及中英韩日互译,整体而言已经比较强大。 语音设置中非常明显的一个选项是离线语音功能,当下载完这一资源包后离线状态也可以进行语音输入,毫无疑问这是非常实用的功能。此外,百度输入法语音输入还支持个性化语音、长文本语音、轻声识别等功能,下文将会对一些功能进行实测。 百度输入法的语音输入界面大致如上文所述,总体而言界面较为简洁,各个入口也相当清晰,因此学习的成本极低,笔者大约花了两三分钟就基本了解该语音输入的操作方法。 实际体验:功能丰富反馈迅速 在普通话输入模式下,简短语句的输入会非常容易实现,而且准确率相当高,笔者此处并不想多做介绍,毕竟百度在AI领域已经取得了相当不错的成绩。以上是笔者简单描述的内容“明天晚上六点湘菜馆,大家聚一下”。 但是,聚会总是比较难以在第一时间统一行程,笔者想起某位同事明天没空,因此需要将时间调整一下,此时百度输入法语音输入的强大实力就得以体现,仅需继续说出“小度小度,把六点改为六点半”,对应的文字内容即可修改,能动口绝不动手的方便性显露无疑。 如今的英语交流日益增多,笔者也从新闻网站的报道中找到一段内容,纯英语输入记录如上图。对比右边原文,错误已经很少,很显然,百度输入法语音输入可以实现帮助记录内容,笔者可以省去以往通过双手打字记录的过程,再通俗点来说,这就跟目前的AI智能录音笔的“语音实时转写”功能差不多。 正如上文所述,笔者在很多时候需要进行会议总结,长文码字总是比较痛苦的,因此笔者非常想尝试百度输入法语音输入的长文本语音,笔者选择了一段内容进行语音输入,最终得到以上结果,除了标点与原文不同以及几个多音字识别错误外,普通话长文本语音的输入确实没有难度,全文几乎没有错误。 在中英日韩互译方面,笔者尝试了日语和英语,通过上图简单测试,可以看到显示结果还是比较准确。 英译中方面,笔者也是直接语音输入英文,直接获取中文翻译,结果如上。可以看到整体的翻译还是比较准确,略有差别。笔者对这一结果非常意外,以往做总结时的一些烦人翻译,以后可以交给百度输入法先进行一遍翻译,笔者后续再稍作修改即可,效率提升很明显。 非常有趣的是,百度输入法语音输入还支持斗图表情,点击进入斗图模式,语音输入关键词,对应的一些表情即刻出现,必须承认有些内容通过图片形式表达更为接地气。例如:我输入晚上吃什么?百度输入法就会显示出带有这段话的表情,从而让你斗图不输。 部分场景下大声说话是无法实现的,比如会议中,不过百度输入法语音输入居然还做了一个轻声识别的功能,笔者简单测试了下轻声输入,实际结果并没有影响,准确率百分百。 整体而言,百度输入法语音输入的功能已经较为完善,准确率方面保持着不错的水平,尤其值得称赞的是,不管是普通话语音输入还是外语输入等,其反馈速度都相当迅速,毫无拖沓感。 语音输入的未来:工作学习效率提升的利器 坦率地说,语音输入并不是适合所有的用户使用,但与此同时也必须清晰地认识到语音输入是AI时代人机交互的一个重要内容,未来的语音对话一定会在许多场景中得到更大的拓展,而仅仅一个百度输入法语音输入就可以帮助用户提升学习和工作的效率,大趋势之下,你为何不选择尝试一下? 原文章作者:竖锯评测,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于7 小时前
    最后回复 朦邵 7 小时前
    3532 0
  • 听声辨位、手势交互等,长安UNI-K这些智能交互亮点很牛
    宠粉,长安汽车是认真的。前几日,长安汽车应粉丝的要求,首次向大家展示了UNI-K的动态表现,让大家感受到了其宽适、静谧的大空间。而今日(1月15日),长安汽车未来美好之旅再度开启,而这一次的主题是智能人机交互。无障碍人机沟通,无疑让更多消费者对UNI-K更具好感。 不一样的导航,更安全 从直播上我们可以发现,区别于传统的出现于中控屏上的导航信息,长安UNI-K的导航信息却出现在了仪表盘上,让人耳目一新。圈哥了解到,这是长安工程师基于安全考虑,才有了这样的设计,从而让驾驶者的视线始终保持在前方,避免了不必要的安全隐患。 而流媒体后视镜的显示画面,也在仪表盘右侧屏幕,稍微动眼就能看到的区域。此外,新车还配备了AR地图导航,可以实时捕捉实景作为地图场景数据载入,让驾驶者更加轻松的了解周边的车况。 听声辨位很神奇 消费者在用车过程中,难免会遇到各种剐蹭等情况,这个时候,就会触发对应区域雷达报警,但传统的报警其实很难分清异常状态和障碍物的位置,而长安UNI-K的“听声辨位”功能就能很好的解决。 从直播间的演示来看,当车辆遇到报警灯情况时,依托于14扬声器精准的声场控制,UNI-K可以将特定方位的声场传递给驾驶员,就能明确知道到底是哪儿出了问题,进而减少剐蹭等情况的发生。 此外,新车还拥有无极调节的声场定位功能,在播放音乐时,谁喜欢的音乐就给谁听;当副驾驶想调节温度时,系统会对应调节副驾空调温区,充分照顾每一位乘客的需求。 语音控制“免唤醒” 从直播间我们可以发现,在智能语音交互方面,UNI-K同样惊喜十足。车主语音唤醒系统之后,就可以一次性执行打开天窗、打开空调、调整空调温度、打开音乐、打开导航等一系列操作。即便用“重庆话”来执行一连串命令也不是问题。 圈哥了解到,长安UNI-K搭载了科大讯飞语音交互系统,支持多轮对话、上下文识别、跨场景识别。当然,除了常用词汇免唤醒外,诸如导航、爱奇艺、QQ音乐等第三方生态APP也可以进行语音控制,让驾驶更加便捷安全。 手势交互,更显高级 从直播间来看,长安UNI-K还支持手势交互,并首次实现了后排的手势交互,这在同级中是罕见的。消费者可以在后排实现导航、听音乐等控制。诸如左右滑动的手势可以切歌、点赞直接导航等等,进一步优化了后排乘客交互的多种场景。据悉,通过车机的OTA升级,用户还可不断更新隔空手势功能。 《车壹圈》认为,通过此次粉丝与长安UNI-K在智能人机互动领域的互动,在有效解决了用户有关困扰的同时,也让更多的消费者实实在在的感触到了新车带给拥车生活的便利与安全。可以说,每一期的长安汽车未来美好之旅,都让消费者认识到了一个不一样的长安UNI-K。面对这样一款“宝藏”车型,你难道不想来挖掘一下么? 原文章作者:车一圈,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于9 小时前
    最后回复 韶梦雨 9 小时前
    2841 0
  • 车载语音系统有哪些门道? 听听小鹏汽车的负责人怎么说
    出品 | 搜狐汽车·黑客 编辑 | 周航 [搜狐汽车·黑客] 前几年,在谈及车机系统的发展预期时,车企会拿广义的“互联网思维”说事;如今,智能手机人手一部,让车机系统“手机化”的趋势日渐明朗了,也更具象了…… 说到手机,想来大家经常遇到“打字说不清楚,电话(语音)聊”的情况,直抒胸臆正是语音沟通的核心优势。换到车机,语音系统同样是人机交互最直观的方式、最关键的载体,近的可以代替传统按钮(旋钮)操作,远的甚至可以真正的交流。 为此,本文咱们就来聊聊车载语音系统的事。此次我们邀请了小鹏汽车(以下简称小鹏)感知融合与语音负责人赵恒艺进行了1对1线上连线,以下为采访内容的整理。 小鹏汽车感知融合与语音负责人赵恒艺 [·小鹏说:用语音的越来越多 OTA注重车主反馈·] 关于小鹏的语音系统,赵工一上来就分享了两个数据。常规的是,使用“小P”(车载语音系统)的小鹏车主已从最初的75%增长到了90%(92%左右)以上;更高阶的是,用户平均每天唤醒语音的次数达到了12次,周渗透率超过99%。 就这两个数据代表的意义同样有两点。一是表面的,车主使用语音系统更多、更频繁了;二是深层的,即用户的依赖度越来越高,这一点在笔者看来,与用惯了智能手机就很难再用回诺基亚可谓异曲同工,新功能在最初的适应期过后,取代传统的趋势已经不可逆了。 另外,包括语音系统在内的整个车机,小鹏的OTA升级并非“死板”的工程师逻辑,而是遵循着用户反馈、实际用户数据分析以及自顶而下的三种迭代路线,其中用户反馈有着相当高的优先级。而如果要按优先级排序的话,最高的是:思考智能汽车的未来交互形态是什么、我们应该做什么样的智能汽车,放眼未来的产品战略是第一位的。 而关于小鹏的语音系统接下来的升级方向?主要涉及以下三点(具体升级时间并未公布)。 第一,免唤醒。即不用每次使用语音系统都需要叫一次“小P”,提升用户与车机系统对话的持续性。 第二,声源定位。面对车内不同位置乘客都在说话,语音系统很难识别信息的问题,其实理想等一些品牌已经给出了“简单粗暴”的解决办法,就是主要听一个人的,弱化其它座位的收声音量,降低大约20dB左右。 而小鹏希望这项技术更人性化一些,通过语音系统本身来辨别复杂的信息,不过这种“一劳永逸”的方式对于语音分析的要求较高,不会出现在近几个版本的OTA升级中。 第三,更强大的智能AI。现阶段手机、车机等民用领域的智能化,尚不具备自主学习的能力,全部都是通过系统版本迭代,后台带来的监管式学习,跟学生需要老师监督是一个道理。这方面将在小鹏语音系统之后的升级中,以潜移默化、细水长流的形式呈现,让机器越来越理解你说的话。 [·自研语音代表了自建“闭环”的决心·] 车载语音作为车机系统的一部分,本身是可以由供应商提供、单独“嵌入”的,时下最常见的如科大讯飞、百度、以及天猫精灵(阿里)等,都有非常成熟的解决方案。而小鹏则反其道而行之,选择了付出更多人力物力的自主研发+供应商深度合作形式,原因简单概括其实就是“闭环”二字。具体来说,小鹏品牌自身的闭环,在系统软件方面没有任何的“雇佣兵”,一律都是“御林军”。这种做法劣势就是上一段所说的成本问题,好处是语音系统与整车其它控制单元能够精诚合作。 其中,唤醒词、语音识别、语音合成和通用域的对话交互是基于思必驰DUI平台的,小鹏的自研主要集中在核心领域的对话交互,改变核心交互逻辑,把全双工语音的能力、语义抗噪、语义打断及核心领域的语义处理给建立起来。这个思路主要是考虑自动驾驶和语音交互是小鹏的核心竞争力,必须建立起核心的研发能力。 拿语音系统来说,小鹏 G3(参数|图片)最新版本OTA升级之后,用户发布的语音指令已涉及导航、空调、娱乐、车窗乃至胎压状态(1.7版本新增)等多项功能,语音系统打通了G3车型最初预留的所有控制单元,即已经将语音可控制的硬件开发到了这款车的极致。硬件层面,接下来就是进一步的优化,更多的语音实现就要在 P7(参数|图片)乃至未来的新车中落地了。 [·自建闭环以骁龙820A为轴心·] 其实谈到小鹏的闭环,被推到台前的是X Pilot自动驾驶辅助系统,在推出3.0版本之后,更好的将特斯拉擅长的摄像头和蔚来主攻的毫米波雷达结合在了一起,常被不少科技控们提及。这方面的基础来自英伟达,小鹏P7正是首款搭载 NVIDIA DRIVETM AGX Xavier平台的量产车。 而小鹏车机系统同样存在一个来自供应商的轴心,那就是高通骁龙820A芯片。骁龙820这个代号想来大家都不陌生,在此前的三星S7、小米5等手机中就有过硬中,而加上了A(代表AUTO)这个后缀之后,从消费电子级别上升到了应用场景更为严格的车规级。这其实就是开篇车机系统“手机化”,或者说沿着手机的路前行的一个佐证。 车机芯片的作用其实与PC以及手机求同存异,承担着整个系统“大脑”的工作,正所谓兵怂怂一个,将怂怂一窝,作为“将”的芯片作用不言而喻,包括语音在内的整个车机软件系统,思考的维度(算法)与处理的速度(算力),全看芯片水平。骁龙820A作为现阶段车规级芯片中的佼佼者,其作用由此可见一斑。 [·本地靠骁龙820A 而未来还得看云端·] 接着回到本文的主题小鹏语音系统,相当于14nm封装工艺64位4核CPU的骁龙820A加持,让语音识别能力,以及响应与处理的速度,均来到了时下智能汽车范畴中的领先水平,成为了小鹏语音系统出色表现的最大助力。 而芯片的助力更多的还是体现在本地,通过提升算力即可达到不错的效果,而正如赵工连线时所说:未来的语音系统必然会是本地与云端相辅相成的。 举个直观的例子,人与人之间沟通时,工作量最大的并非是“嘴”,而是一直在听的“耳朵”,更进一步的人机交互,机器也要具备听觉不间断的能力。这个实际场景产生的大量数据单靠芯片远远不够,且协助机器学习的本地存储也会成为瓶颈,所以必须要借助云的计算与存储能力。 [·写在最后·] 说了半天骁龙820A的好以及未来借助云端的发展趋势,想必网友们都想知道小鹏的语音系统现阶段究竟是什么水平?说什么都不如实际体验来的实在。但是在此我们要先卖一个关子,稍后的《神机妙算2.0》系列文章将会进行详细解读,敬请持续关注搜狐汽车·黑客。 原文章作者:黑·客,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于昨天 15:01
    最后回复 寤落聂 昨天 15:07
    2197 3
  • TCL V8全场景AI电视:真正的智能交互是这样的
    随着科技的发展,很多新兴技术如雨后春笋般拔地而起。人工智能、5G、区块链、VR、物联网等,都是近几年的明星词条。说到人工智能我们应该都不陌生:人脸识别,语音交互等,都已逐渐渗透到生活的方方面面。但人工智能真的智能吗?相信看到这个问题的很大一部分人都会表示否定,因为我们也遇到过很多让人哭笑不得的人工智障。 “智能烤箱” 据外媒报道称:有位用户的智能烤箱在凌晨两点自动开启并预热,温度甚至达到了华氏 400度(约 204摄氏度),生产该烤箱的公司表示:公司正在积极升级,避免此类事件的发生。什么是智能烤箱?烧掉你的所有东西,你的食物自然就熟了! “智能减肥餐叉” 这是一款智能餐叉,可以通过蓝牙与智能手机连接,研发者声称这款餐叉能够减肥,原因是它能够在你吃饭过快的时候亮灯并震动,从而帮助用户更好地控制用餐时间。用户表示,我只是想好好吃个饭而已。 “智能水龙头” 这款产品竟然可以通过声控来出水和停水。所以,我们以后的智能厨房里可以听见各种:“停下!快停下!”之类的嚎叫了。 这样的人工智能产品,你敢使用它吗?分分钟会把自己变成智障!所以,一款真正实用的人工智能产品不是异想天开,而是能够真正帮助到消费者,让他们的生活变得更简单快捷。比如说TCL最近新发布的这台V8全场景AI电视。 TCL V8全场景AI电视的使用场景是这样的,你可以随心所欲地躺在沙发上,唤醒小T,然后直接说出你想看哪部电影即可,小T就会自动为你打开;假如你在看电影过程中肚子饿了,你还可以直接下达指令让小T帮你点外卖。除此之外,天气查询、地图导航等操作也是张口就来,无需你动手操作,衣来伸手饭来张口大概就是这样了。 在语音交互方面,TCL V8全场景AI电视支持Handfree免唤醒语音黑科技,只需唤醒一次智能语音助手“小T”后,便可以进行多轮自然对话,无需再频繁的唤醒“小T”。例如,“我想看《安家》”、“播放第五集”、“暂停”、“快进”等指令,只需一次唤醒便可直接进行交流。有时候你可能会感觉“小T”已经不像是一个人工智能助手了,更像是生活中的贴心小管家,为你提供周到的服务。 与此同时,TCL V8全场景AI电视还具备全屋互联功能,我们可以实时控制家里的其他智能家居产品,即便是相隔8米远的距离,也能够随意下达控制指令。 假如你正看电影看的入迷的时候,爸妈突然要求你马上起来拖地,这就很扫兴了。但我们可以跟TCL V8全场景AI电视说,“小T,帮我打开扫地机器人扫地”即可,这种体验岂不是美滋滋! 当然除了我们,家里老人小孩都可以享受TCL V8全场景AI电视带来的乐趣。比如说爸妈或者爷爷奶奶普通话不好怎么办?没关系,这款电视还听懂多种方言四川话、河南话、陕西话、广东话等通通不在话下,操控更加方便。 所以,真正的人工智能产品不是研发者们灵光一闪想出来的奇葩创意,它必须是懂用户,懂交互,实实在在能为人们生活带来便利的,TCL V8全场景AI电视就是一个非常好的榜样! 原文章作者:商业聚焦,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于昨天 07:37
    最后回复 牝筒 昨天 07:37
    3109 0
  • 多项重磅技术首次落地!小米声学语音技术实现全面自研
    小米声学语音技术 发展已久,也已落地小米多款产品。 近日,我们发布了小爱音箱Art,作为小米推出的第9款智能音箱,小米小爱音箱Art背后的声学语音技术也重磅升级, 搭载第三代小爱同学,支持情感化语音交互、全屋播放及就近唤醒等。 目前,小米的声学语音技术 已经实现全面自研,并在自研部分领域持续领先,声学语音技术已迎来全新时代。 01 语音交互实现“情感化” 业内首家情感化TTS 大规模落地 对于智能设备而言,实现情感化语音交互是一项挑战。 “情感”本身就是主观的、多样的感受,一种情感可以有多种呈现形式,更适合人与人的面对面对话。情感化语音交互对技术要求较高,要 技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识,将较主观的情感音素统一化、标准化。 随着人工智能技术的发展,在实现人机对话的基础上,各大厂商都在情感化语音交互的领域探索。为了让机器加入情感元素,小米AI实验室在“情感数据量有限”的前提下,通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS(Text to speech,人工语音合成), 成为业内首家情感化TTS大规模落地的企业。 通过小米AI实验室的不断深耕,此次小米小爱同学Art全面支持情感化语音交互,基于有限但类型不同的情感音频数据(如开心、关心、害羞、惊讶等),通过不同技术训练并迭代声学模型,最终支持情感TTS合成并实现“小爱同学”音色情感化、拟人化。 未来,小米语音将升级此技术——支持情感TTS实时合成。 从下图中可以看出,在大数据集的预训练模型基础上, 利用目标说话人的中性情感数据对网络进行微调,得到目标说话人的中性情感模型;在此基础上用带情感的小批量数据对模型进一步微调, 最终得到不同情感的模型,最终实现情感合成。 在国内语音助手行业中, 小米首次实现情感化TTS的大规模落地,未来将打造情感更加丰富的“小爱同学”,为用户提供多元化的语音交互体验,为IoT设备增加更丰富更立体更逼真的语音交互体验。 02 AIoT放音技术升级 首次实现一句话 全屋同步播放相同音频功能 小米小爱音箱Art,是首款可以实现语音支持全屋播放的设备。用户直接对小爱同学说“全屋播放XXX”,无需提前在App端进行手动设置,即可实现一句话语音交互,为用户提供了更便捷的使用方式。 要实现这一功能,音箱需要具备AIoT放音的技术。小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后,将不同音箱播放声音的同步优化到微秒级别,同时还实现了在不同型号的音箱之间的数据同步,提供更细腻的音质和宽广的声像。 由这张图可见,立体声支持APP创建组网,才能进行语音指令和APP操作播放,全屋播放同时支持语音指令和APP创建组网。 立体声功能同时支持语音指令和app操作播放,云端音频流下发至音箱A,音箱A将立体声分离为左右声道,音箱A自己播放左声道音频并将右声道音频流下发给音箱B,由B音箱播放右声道,精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和app创建组网,音频流下发至音箱C,音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放,不区分声道,可支持多个设备。 03 就近唤醒全新升级 业内首次上线 跨设备关闭闹钟功能 早在2018年,小米音箱系列就上线了就近唤醒功能。值得一提的是,此次小米小爱音箱Art就近唤醒全新升级,可支持跨设备关闭闹钟。远处的音箱闹钟响了,唤醒近处的音箱可以直接关闭远处的闹钟。此功能在业内首次上线,小米小爱音箱Art也是首款支持该功能的产品。 说到就近唤醒, 小米早在2018年就上线这一功能,截止2020年4月28日,分布式就近唤醒已为多设备用户累计避免约6.82亿次设备同时唤醒, 准确率达到98%。近期首发上线了端云多维度结合的就近唤醒综合决策策略,深入加强多设备状态信息联动,智能判决空间信息,进一步提升了家庭复杂网络环境的兼容性,同时做到了多设备响应的唯一执行,大幅提升用户体验。 未来, 小米将专注于家居复杂场景应用、智能声学感知和多传感融合。在复杂的家庭结构环境中,保证算法的可用性,让每个设备主动感知所处的不同环境,根据环境完成算法自适应,将数据结果取长补短,相互融合,实现多维度智能感知。 04 两麦阵列唤醒新策略 兼顾低功耗与高性能 高效降噪,获得干净人声 小米小爱音箱Art同步支持两麦阵列唤醒技术。在麦克风阵列方面,小米采用两麦盲源分离降噪前端,通过盲源分离、降噪、回声消除等技术,在多声源的嘈杂环境、音箱自身播放音乐时,都能结合语音增强技术, 消除噪音的强干扰,获得干净、准确的人声音频。 在唤醒方面,为了兼顾低功耗与高性能,自研语音唤醒算法采用双级唤醒策略。 低功耗待机唤醒词检测模型,利用子采样与共享隐含层等技术,减少模型资源消耗的同时保证召回率在一个较高的水平。高性能误唤醒检测模型,采用粗粒度建模单元,结合局部信息与长时上下文信息,高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本,再经过数据扩充技术, 提高唤醒模型在低信噪比与小音量场景下的鲁棒性。 现在, 小米IoT平台连接的智能硬件数已达到2.5亿台,音箱出货量已经达到2200万台。 在这么大的用户体量下,如何让基础体验持续提升,且提升产品在AI体验上的创新性,对自研AI团队来说是非常重要的使命。未来,我们将一直致力于研发先进的AI技术,并将技术落地到产品及业务,为用户带来更好的产品体验。 — 点击进一步了解 小米声学语音技术全面升级的 小米小爱音箱 Art — 让全球每个人 都享受科技带来的美好生活 #小米技术立业 # 点下『在 看』 和大家一起看 原文章作者:小米公司,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于前天 19:58
    最后回复 耿吉星 前天 19:58
    1750 0
  • 博越PRO语音助理改名 发音人重新设置!
    【博越PRO】语音助理改名、发音人重新设置! 新车提到手,谁还没和语音助理打过交道呢?语音交互功能减少了驾驶员亲自动手的“麻烦”,也在一定程度上面保障了行车安全,听说有人不喜欢初始唤醒词?也不喜欢预设的发音人?那等什么,赶紧改了去~ 测试车机示例 语音助理改名 博越PRO(参数|图片)语音助理(唤醒词)支持两种方法重置: 1 直接唤醒语音助理进行重置 通过【你好 吉利】唤醒后,直接说“给你取个名字叫小白”即可重置。 2 通过车机【魔法书】设置进行重置 上下滑动查看图示 开启车机后,点击【魔法书】-【设置】-【唤醒词】-【更改】,输入自己重置的唤醒语即可重置成功。 发音人设置 上下滑动 GKUI语音助理中有多种播报发音人供大家选择,我们可以通过【魔法书】-【设置】-【发音人】,然后重新选择播报发音人。 全局打断功能 有车主反馈在语音交互过程中,语音助理“话过于多”,其实大家可以随意打断对话的:人性化功能——全局打断,就像和人聊天一样,不仅可以随意打断,也可以直接说“取消”即可“一键”返回到语音唤醒前。 示例:“你好,吉利,介绍下杭州”(系统收到指令,开始播报长篇介绍杭州的文字)——“取消”(停止播报,退出语音系统,回到唤醒前)。 新增唤醒词 在家习惯了叫“小度小度”,在车上也想找小度玩,小度能来车里吗? 博越PRO GKUI19 OTA升级之后,现已支持“小度小度”唤醒,让您在路上也有小度陪伴。 你学会了么 原文章作者:六安汇吉吉利,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于前天 17:27
    最后回复 祉足 前天 17:27
    3296 0
  • 上汽集团新车搭载斑马智行新系统 AI语音成重大亮点
    近日,上汽荣威 RX5(参数|图片) PLUS 谍照曝光。作为荣威全面年轻化战略的第一款车型,除了采用全新的数字律动设计语言,新造型更为时尚动感之外,最大的看点莫过于搭载了斑马网络研发的最新的车载系统——斑马智行VENUS。 上汽新车搭载斑马新系统 AI语音黑科技曝光 众所周知,车联网虽然前景很美妙,但实际的打开率很低,最根本的问题在于“操作入口不简单、不流畅”。一方面,许多车联网依旧是参照手机的交互逻辑,对双手依赖太高;另一方面,车联网的语音交互还存在不准确、不自然、不连续等问题。单纯的语音控制,依然要结合手动操作,用户交互不方便,还容易造成交互死结,开车过程中安全隐患很大。因此,语音交互支持自然连续对话,能动口就不动手,是用户的核心诉求,也是智联网汽车创新发展的关键。 据了解,斑马智行新系统VENUS主打AI语音,仅需一次唤醒,即可实现自然连续对话,并且指令可随时打断,内容可随心切换,不再是冷冰冰的机械指令,不再让用户感觉在与机器互动,人机交互会变得更加贴合人性,通俗来讲就是说人话,人车互动交流起来,就像和朋友说话一样自然。 据了解,自然连续对话是一个系统的工程,涉及到从车机端的声学前端处理、语音唤醒、语音识别、语义理解、对话管理、自然语言生成、语音合成等核心交互技术。这得益于阿里达摩院的重磅加持以及科大讯飞、思必驰等合作伙伴的大力支持,让斑马智行VENUS系统AI语音能力大大提升。举一个例子,用户询问“今天出门需要带伞么?”,车机就会播报今天的天气情况,如果需要再查询明天的天气,那么用户不用说“明天天气怎么样”,而只需要说“明天呢”。此外,用户可以随时打断提出新的需求,比如问股票、找饭店、查油价等等。 用户和车机在自然连续对话的过程中,语义理解服务会记住会话的历史,并结合历史来处理用户的请求,通过这种方式,用户的多次连续交互就可以形成一个会话流,与用户的交互也更加自然。 语音互联网时代 AI语音成为智联网汽车“重要抓手” 随着汽车智能网联时代的到来,车机大屏已经成为继电视、电脑、手机之后第四块被抢夺的屏幕,但是,车机不同于手机,抢占了屏幕不等于抢到了用户。车机和手机,在使用场景和交互属性上存在很大差别。只是把应用装进了车机,离车主使用还有很远的距离。车载设备的智能服务要基于使用场景,优先考虑安全、便捷的情况下,实现人车生活的互联互通。 “互联网女皇”玛丽·米克尔(Mary Meeker)在其每年发布的《互联网趋势报告》中,多次强调了语音是最有效的计算输入形式,将成为人机交互的新范式,其中一个重要的应用场景就是汽车。 智联网汽车,已经打通了互联网生态价值链,拓宽了汽车行业边界,催生出新的服务类型,正成为新的商业未来。从PC时代到移动互联网时代,再到今天的“语音互联网时代”。AI语音,正在占据我们生活应用中的每一个入口,掌握着内容和服务的分发大权,蕴藏着无限的价值。在车联网的应用中,AI语音交互扮演着非常重要的角色,它已经成为车联网公司和主机厂进军智联网汽车的“重要抓手”。 斑马市场相关人士表示,基于AliOS系统,斑马智行可以更好地将语音核心技术能力与系统能力相结合,更大程度地发挥出语音核心技术的优势,并能多种引擎的协作发挥到极致,达到“1+1>2”的效果。此次斑马智行VENUS行业率先搭载的多核融合语音引擎,在综合调教下,能够达到准确率与误触率的平衡,使得系统能够将自然连续对话设置为默认生效,让更多用户可以享受到自然连续对话带来的便利。 从第一辆互联网汽车荣威RX5,到荣威 RX5 MAX(参数|图片),再到荣威RX5 PLUS,随着上汽集团主力车型的更新迭代,斑马智行系统也一直在创新升级,目前已经从MARS迭代至VENUS的斑马智行,已经成为阿里巴巴和上汽集团打造新一代智联网汽车的“第二引擎”。 原文章作者:第5车道,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于前天 07:54
    最后回复 史思溪 前天 08:07
    2774 5
  • 如何让 AI 语音合成听上去更有“人情味”?
    丹棱君有话说:“听”时代来临,德勤预测有声读物市场规模将在 2020 年大规模提升。不断成熟的智能语音能力将帮助相关企业提高生产力和用户体验。作为微软 AI 能力的一部分,微软智能语音性能已可媲美人类水平,经过不断技术迭代,合成的语音越来越有“人情味”,应用越来越广泛,这是如何实现的?来跟丹棱君一探究竟。对了, 微软在线技术峰会明天即将开幕,扫描文末二维码来报名吧。 语言的多模态应用在不知不觉间已成为人们生活中习以为常的技术,一句简单的语音识别转写、一次短暂的智能客服答疑……这些都是 AI 语音交互技术应用为人们生活带来的便利,与此同时,其社会价值与意义也在被重新估判...... 人机交互,机器的声音越来越需要“温度” 语音技术从根本上改变了人和机器的关系,也彻底改变了我们与软件交互的方式。它主要分为语音识别(Speech Recognition, 或者 Speech to Text)、语音合成(Speech Synthesis, 或者 Text to Speech)、自然语言处理。其中,语音合成技术发展最早,且应用已较为普遍。 让计算机具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。语音合成技术通过机器自动将文字信息转化为语音,相当于给机器装上了人工嘴巴。而完美的人机交互体验无法忽略“说”的环节,因此,语音合成的重要性日益凸显。 从早期的机械化语音合成开始发展至今,语音合成的应用场景经历了较大的转变。以前语音合成应用都是在相对单调的场景,现在其应用场景更加复杂,智能助手、智能机器人、文学阅读等诸多领域都能见到语音合成技术的身影。 在语音合成技术应用不断深入的同时,已有的商业模式也对场景优化提出了更高的要求。例如,在有声读物方面,用户需求越来越个性化,单调的机械声已完全不够;在机场、车站广播等服务行业,温柔、甜美的音质更能拉近与乘客的距离;在听新闻内容时,人们往往期待一个有威信的、稳重的声音;而在客服助理场景下,人们又希望这个声音可以更加热情亲切,善解人意...... 因此,如何让合成的声音听起来自然并富有情感,是语音合成领域的一个主要发展方向。 利用基于深度神经网络的语音合成系统增强语音交互真实感 在传统语音合成技术中,波形拼接合成方法无疑占有着重要的地位。其基本原理就是根据输入文本的信息,从人工录制与标注的语料库中挑选合适的基元(通常为音素或音节),进行少量的调整,然后采用波形拼接的方式得到与待合成文本相对应的语音序列。但是波形拼接合成方法需要准备海量的高质量语料,同时,该方法也不具备扩展性,不能面向需求适应到不同的应用场景。 为了提升合成语音自然度、降低语音生成对语料库的依赖度,并增加语音合成系统的可扩展性,研究者们又提出了参数化的合成方法。在同等数据规模下,参数合成的方法能够产生相比拼接合成方法自然度更好的合成语音。然而,这个方法也还存在着很大的局限性,比如在字边界处会存在明显的拼接痕迹,使其合成语音与自然语音有着很大的差异,不能满足人们对自然语音合成的期望。 近年来,随着机器学习技术的不断成熟,基于深度神经网络的建模方法逐渐被语音合成领域的研究者所采用。微软作为最早参与语音合成技术研发与生产的公司之一,基于 30 年的技术积累微软率先于 2018 年在全球范围内推出了端到端的深度神经网络语音合成服务(Neural Text to Speech, Neural TTS),将合成语音的音质与自然度提升到与人类接近的水平。 该系统利用深度神经网络来克服传统的文本到语音转换系统的局限性,匹配口语中的语音顿挫和语调模式和韵律,并将语音单元合成为计算机语音。由此合成的语音在节奏、语调和顿挫感上都几乎和真人一样,具备人类语音一样的自然韵律和词汇清晰度。这可以在人类与 AI 系统交互时大大减轻听觉疲劳,是语音合成领域的重大突破。 目前,微软的 AI 语音技术服务支持全球近 50 种语言,已遍及 140 个国家和地区。其中,端到端神经网络语音合成技术已支持 5 种语言(英文、中文、德语、葡萄牙语、意大利语),为教育教学、业务出海、有声书等领域提供着坚实的技术支持。 2019 年 1 月 31 日,微软 AI 智能女声“晓晓”在央视新闻联合微软 AI 推出的互动融媒体产品《你的生活 AI 为你唱作》中正式亮相,这是基于微软 Azure 云的端到端深度神经网络语音模型的语音合成服务。微软晓晓不仅在语气、语音、语调等方面无限接近真人效果,还可以用带有不同的“情感”的声音效果满足不同的场景需求。 2019 年 2 月 20 日,小米正式发布人工智能语音手机小米 9。不同于以往提前录制好的语音服务,其内置的人工智能版王源成为一大亮点。通过与微软 AI 语音的合作,小米 9 可以实时、在线合成王源的声音,随时向用户问好,陪用户聊天并送上节日祝福。这些都让“米粉们”欣喜不已。 2019 年 11 月,微软更进一步推出了基于深度神经网络语音合成技术的声音定制服务 Custom Neural Voice 的预览。该服务能使用极少量的声音样本定制出各式各样的高度仿真的人工智能声音,且效果更加自然逼真。 事实上,无论是在 AI 行业还是用户群体中,AI 语音定制的能力始终被抱以高度期待。利用 AI 模拟人声,不仅可以注入陪伴、记忆等诸多社会情感因素,还能借助用户熟悉的声音触发更多的应用想象。而微软的 Custom Neural Voice 能够将制作一个高品质声音所需要的训练数据规模降低到十分之一甚至更低,这也让 AI 语音定制化这件事,不用耗费过多时间和资源,以更加简单的方式就能轻松“飞入寻常百姓家”。 不忘爱与责任,微软赋予 AI 语音真正的“人情味” 在普通群体提供智能、先进的技术产品的同时,微软也在借自身先进的 AI 语音技术为残障人士的生活提供便利。对于只能通过触摸和听觉来感知世界的视障人士而言,阅读是一种奢望,他们通常是通过触摸阅读盲文书籍,耗时是健全人的数倍。或者用读屏软件或者其他技术通过语音获得信息。为了让视障人士拥有更好的阅读体验,微软与红丹丹视障文化服务中心达成合作,探索研究利用 AI 技术将文字合成电子有声读物。 2014 年,微软和红丹丹一起为视障人士在 Azure 上搭建了云端有声图书馆——心目图书馆,为盲人朋友提供便捷的有声图书阅读服务,丰富他们的文化生活,不断学习和进步。目前,该图书馆已经覆盖全国 105 所盲校,越来越多的人通过有声图书感知到世界的精彩。 2019 年,微软人工智能中文女声“晓晓”通过自动合成有声读物,协助红丹丹极大提高了制作有声内容的效率。微软的深度神经网络声音定制服务 Custom Neural Voice 更是基于红丹丹培养出的全国第一个视障播音员董丽娜老师的语音数据作为原型,为红丹丹定制了一个发音标准、情感饱满、同时为盲人朋友们所熟悉的人工智能声音,并提供了一套基于 AI 语音的智能有声内容创作平台,使红丹丹及其志愿者们可以通过界面化的操作,快速地使用不同的音色生成有声内容,解决了之前人工有声内容创作周期长以及传统 TTS 合成声音情感单一等问题,显著改善了视障人士有声读物匮乏且读物声音机械、空洞的阅读体验。 未来,微软还将持续更新智能技术,让 AI 语音成为视障人士感知世界、深入了解文化的坚固桥梁。 随着语音合成技术的快速发展,机器所生成的语音必然会越来越自然生动,也会越来越具有情感表现力。作为全球最早投入人工智能研究的企业,微软也会在一次次升级和迭代中,不断冲破技术原有的障碍,满足越来越多的不同用户需求。用技术改变生活,用声音传递温度,微软身体力行地用自己的行动完成着自己的使命——予力全球每一人、每一组织成就不凡。 在语音识别领域,微软的智能语音识别技术也已支持近 40 种语言,涵盖实时语音识别、批量语音转写和后语音质检等多种场景。据了解,微软呼叫中心语音服务已落地包括好事达(Allstate)、毕马威(KPMG)、中国移动、联合利华( Unilever)在内的科技、保险、通讯等行业的多家世界五百强企业。 预告 4 月 17-18 日,为全天的【 AI&IoT 】 专场,届时将会在此专场下进行【微软 AI 语音云圆桌会议:如何利用语音技术应对复杂对话识别和情感声音合成等多种挑战】的内容分享,通过技术实现到场景应用,集中介绍微软在 AI 语音方面的最新成果,扫描下方二维码即可报名参加。 本文转自 InfoQ,作者佘磊 原文章作者:微软丹棱街5号,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 cw2vj9uj17 3 天前
    946 0
  • 刚刚拿下「中国AI最高奖」的语音技术,能给我们带来什么?
    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 什么样的语音项目,能拿“中国AI最高奖”? 不久前,中国唯一国家级的人工智能科技奖——吴文俊人工智能科学技术奖,公布了最新一届的获奖名单。 而在人工智能自然科学奖的5个一等奖中,唯一一项语音相关的奖项,花落上海交通大学。这也是语音领域的研究成果第一次获得吴文俊人工智能科学技术奖的一等奖。 获奖人分别为: 钱彦旻,上海交通大学计算机科学与工程系副教授、思必驰上海交通大学智能人机交互联合实验室副主任;俞凯,上交大计算机系教授、思必驰首席科学家;谭天,上交大博士毕业、思必驰语音技术研发工程师;刘媛,上交大硕士毕业。不过稍微熟悉产业的盆友也知道,这个团队除了“上海交大”的底色,还都有独角兽思必驰的影子。 团队获奖所凭借的技术成果,叫“鲁棒语音信号模式分析与识别的深度结构化建模理论与方法”。 这到底是一项怎样的新技术? 斩获”AI最高奖”的语音技术 在语音分析与识别中,传统的用深度学习建模方式,主要是堆叠神经网络层数和神经元单元,或通过增加数据来提高性能。 但这种方式的一个缺点,就是往往不具备可解释性。 而钱彦旻团队的工作,便是将结构化的方法引入到模型设计和优化中,通过引入结构赋予神经网络更强的物理含义和参数解释,并利用人脑的听觉相关机理来指导这种结构的设计。这就会让其更具备可解释性,使得语音模型的优化目标更高效,最终提升语音信号分析与识别系统在各个场景下的鲁棒性。 进一步而言,主要分为三个主攻方向,分别是从信道、环境和人来做的差异化工作。 在“信道”和“环境”方面,二者的研究往往是相伴相随,钱彦旻团队的研究集中在了对它们的表示与感知。 例如2016年和2018年发表在顶刊IEEE TASLP上的 Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition 和Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition,便让语音识别在噪声环境下的也具有较好的鲁棒性。 钱彦旻团队首先在2016年的研究证明了极深卷积神经网络(VDCNN),具有优越的自主抗噪鲁棒性。 然后在2018年,在以上这项研究基础上,提出了一种更先进的模型,称为极深卷积残差网络(VDCRN),并通过感知自适应技术,使得模型可以对环境变化做自动的调整。 简单来说,这个模型结合了批处理归一化和残差学习,比刚才提到的VDCNN具有更强的鲁棒性。 而这项研究的重点集中在了因子感知训练(FAT)和聚类自适应训练(CAT)上。 对于FAT来说,团队探索了一个统一的框架,如上图所示。 至于CAT方面,则是提出了两种方案来构建规范模型,如下图所示。 最后,为了在嘈杂场景下获得最佳的系统性能,还提出了一个完整的多系统融合框架。 实验结果表明,新的VDCRN具有更强的鲁棒性,对该模型的自适应能进一步显著降低单词错误率。 特别是在Aurora4上,仅通过改进声学建模,就达到了5.67%的新里程碑。 人,在语音识别过程中,也是一个非常重要的因素之一。 换言之 ,如何将一段语音中的人和人之间的区别,通过参数化的表示,在数学层面上展现出来。 在这方面,钱彦旻团队也做了相应的工作,早在2015年便发表了题为Deep feature for text-dependent speaker verification的研究。 值得注意的是,这项研究在2019年获得了语音领域权威期刊Speech Communication的最优论文奖。 这项研究为了让深度学习模型更好地融入到“说话人”的验证过程中,提出了从深度学习模型中提取更有说话人鉴别能力的新方法。 与传统的短时谱特征(例如MFCC、PLP)不同的是,钱彦旻团队采用了各种深度模型隐含层的输出作为深度特征,进行文本相关“说话人”验证。 具体而言,一共包括四种类型的深度模型: 深度受限玻尔兹曼机(deep RBM)语音判别深度神经网络(speech-discriminant DNN)说话人判别深度神经网络(speaker-discriminant DNN)多任务联合学习深度神经网络(multi-task joint-learned DNN) 一旦深度特征被提取出来,它们可以在GMM-UBM框架或示性向量(如,i-vector)框架内使用。 与此同时,团队还提出了“联合线性判别分析”和“概率线性判别分析”,作为基于示性向量深度特征的有效后端分类器。 实验结果表明,无论是直接应用于GMM-UBM系统,还是作为示性向量使用,基于所提出的结构化深度模型的新表示特征方法与传统基线相比,都能获得显著的性能提升。 当然,好的技术不能仅仅停留在实验室中的“结果数据”,更应该有落地,应当服务于人。 如此技术,能给我们带来什么? 这个拿了“AI最高奖”的语音团队,除了在学术界取得了成功之外,其实也是有实实在在的技术落地。 团队成员的获奖成果均来自于他们在思必驰上海交大智能人机交互联合实验室中的校企联合研究工作,钱彦旻在联合实验室担任副主任一职。 在量子位与钱彦旻交流过程中,他表示: 因为上交大与思必驰有联合实验室,所以会做学校研究到产业的成果应用转化。 这就使得我们在定义科学问题、研究方向的时候,会更加务实。 具体而言,实验室会根据产品在现实生活中遇到问题,提炼出真实需要去解决的研究方向和问题。 例如,在2019年1月23日晚,中央电视台《经典咏流传》第二季节目中,出现了一款“读诗成曲”的在线互动小工具。 用户只需要朗读一段诗词,就可以听到用自己声音演唱的经典诗词唱段。 这一技术采用的正是联合实验室提供的个性化歌声合成算法。 当然也有更加贴近生活的案例,例如车载系统。 作为思必驰重要合作伙伴,小鹏汽车P7进行了 “全场景语音”功能的升级。 采用思必驰全链路语音交互技术,语音操控即可进行导航、拨打电话、音乐播放、控制空调及语音聊天,全双工语音交互,一次唤醒多轮对话,支持语义打断,打造“持续倾听 连续指令”的自由交互方式。 我们所熟知的像长城哈弗系列、北汽X7、荣威RX5MAX等多款车型,也均在各自不同的智能系统中,采用了来自思必驰的语音技术。据悉,目前思必驰已与北汽、一汽、上汽、五菱、东风等企业建立了合作。 更加贴近生活的智能家居方面 ,我们正在使用的各种产品中,也均有思必驰语音技术的身影。 海信S7F社交电视走进客厅生活。 该产品采用了思必驰TH1520芯片作为AI语音交互专用协处理器,配合思必驰线性四麦阵列前端信号处理算法及思必驰语音识别(ASR)、语音合成(TTS)等技术,实现语音交互。 在语音芯片等领域,思必驰的语音技术也有布局。 这也印证了钱彦旻在总结“基础原始创新实力、前沿创新能力”时的表述: 思必驰深耕于人机交互技术的研发,提供更加人性化的非配合式端到端人机对话式交互系统。 在鲁棒高效精准的语音识别与转写、个性化的语音合成和表达、精细化的富语言信息的分析与提取、场景上下文感知的对话交互、多模态的感知/识别/对话、声学场景的分析等方面,都有深入的探索和先进算法的落地。 目前,基于人机对话式交互系统,思必驰已经在智能车载前装/后装、智能家居、智能电子/穿戴、智慧政务/办公、智慧金融等领域进行了深入布局,并得到了广泛的应用。 不难看出,思必驰上海交通大学智能人机交互联合实验室,拥有的不仅是中国“AI最高奖”语音方面的硬实力,更是将这种能力交付到了实际生活当中。 但无论是哪一方面的成就,背后都离不开团队成员对语音技术的热爱与坚持。 从懵懂入局,到深耕语音十余载 钱彦旻,便是让团队走向中国AI语音技术巅峰的领军人物之一。 钱彦旻是上海交通大学计算机科学与工程系副教授、博士生导师,同时也是思必驰上海交通大学智能人机交互联合实验室的副主任。 博士毕业于清华大学,之后曾在英国剑桥大学工程系MIL机器智能实验室深造,做博士后研究,回国后在上海交通大学计算机系任副教授。目前在语音技术领域已经发表学术论文150余篇,并多次获得最优论文奖励。 与此同时,他还是全球最流行的语音识别开源工具包Kaldi 13位创始人之一。 但在量子位与钱彦旻的交流过程中却发现,钱彦旻在语音技术上的造诣与成就,并非一开始的兴趣使然。 而关于钱彦旻与语音技术的故事,要从2007年开始讲起。 那时的他刚刚开启博士生涯,至于专业方向的选择,则是由其在清华的导师刘加教授推荐。 也就是在这时,便与语音技术有了初次的邂逅。 而刚入局的钱彦旻,用他自己的话说便是“瞎折腾”,博士在读2年后,才慢慢地做到了独立探索和深入研究。 也形成了适合自己的一套研究方法,可以对于一个语音技术的“点”,由浅入深,做比较深入、全面的研究。 在博士毕业之后,也就是在上海交通大学和英国剑桥大学期间,对于钱彦旻个人来讲,是在语音技术多个领域中快速深入推进研究的一个阶段。从博士期间专攻语音识别一个方向,扩展到了语音分类、抗噪、感知、声纹、多模态等语音技术的多个方面。 也就是在与语音技术一点一滴的接触过程当中,钱彦旻从一个“懵懂”的状态,逐步转变到了“热爱”。 于是,从2007年算起,这一入局,便深耕了13年之久。 在此过程中,除了刘教授之外,钱彦旻还提到了另外一个对他意义非凡的人,他便是Kaldi之父——Daniel Povey。 Daniel在钱彦旻读博士期间给予了非常大的帮助,细到会帮钱彦旻看到代码,指导他“将某个参数从1.0调到2.0试试”这种程度。 甚至Daniel邀请钱彦旻出国一起参加Kaldi的开发,都是自掏腰包,极其慷慨的“包吃住”,为的就是共同专研探讨语音技术。 用钱彦旻的话来说: 他做人做事风格,人格的魅力,对科学的专注态度,也帮助我更加明确了研究后期的一些方向,坚定了自己的理想,也给予了我做这个方向的勇气和决心。 …… 而作为此次获得“AI最高奖”的语音团队,站在2021年的开始,钱彦旻也对语音技术将有的一个趋势做了预测。 他认为深度学习在语音技术上的可解释学习还是不够,在这个过程当中具体都做了哪些事情还是不够清晰。 而这也是钱彦旻团队能够获得此次奖项的主要原因,他们的研究让模型设计更具有物理含义,所达到的性能也更优。 钱彦旻也谦虚地表示,他们的工作也只是对该方向的一个贡献,还需要科研人员持续、不断地深入研究。 参考论文: Yanmin Qian, Mengxiao Bi, Tian Tan, Kai Yu. Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 12, 2263-2276, 2016. Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu. Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 8, 1393-1405, 2018. Yuan Liu, Yanmin Qian, Nanxin Chen, Tianfan Fu, Ya Zhang and Kai Yu. Deep Feature for Text-dependent Speaker Verification. Speech Communication, vol. 73, 1-13, 2015. — 完 — 量子位 QbitAI · 头条号签约 关注我们,第一时间获知前沿科技动态 原文章作者:量子位,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 钴惆 3 天前
    2639 11
  • 青海汉藏智能语音交互关键技术及应用取得新进展
    青海新闻网·大美青海客户端讯(记者 崔永焘 报道)青海民族大学、天津大学共同承担的“汉藏智能语音交互关键技术及应用”项目日前通过省科技厅专家组成果评价。 该项目基于言语行为理论,建立了互联网信息化表示的层次化模型,同时研发了一种多层最低有效位的易碎水印语音自动恢复技术,构建了一种基于HMM-DNN(隐马尔可夫模型-深度神经网络)的藏语语音识别系统,应用于藏汉教学智能机器人。 项目可为民族语言的教育机器人应用提供示范性验证,改进少数民族地区师资薄弱课程的授课方式,改善民族地区师资力量薄弱的现状,为提高少数民族地区的教学水平、多民族文化沟通和交流、促进民族团结、文化共享与社会和谐提供了技术平台支撑。 原文章作者:大美青海云,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 4727k0ycu4 3 天前
    1680 0
  • 2021-2025年交互式语音应答IVR行业发展存在瓶颈问题
    IVR(交互式语音应答)市场前景良好 行业发展存在瓶颈问题   #语音服务#IVR,英文全称为Interactive Voice Response,即交互式语音应答,是一种功能强大的电话自动服务系统。IVR最常见的业务是呼叫中心语音服务,也可用于在线点歌、语音游戏、多方会议、聊天交友等领域,在银行、证券、保险、电信、物流、航空、教育、政府等领域被广泛应用。   传统呼叫中心提供的电话语音服务是人工服务,一位客服人员在同时间内只能接待一位客户,客户咨询的问题中,较多为重复、简单问题,在加大客服人员工作量的同时,也降低了服务效率。IVR技术引入呼叫中心,可实现全天候语音服务,解决简单、重复问题占有人工服务的难题,让客服人员专注解答复杂度较高的问题,提高服务质量与服务效率,在降低客服人员工作压力的同时可以提高客户满意程度,还可以降低呼叫中心人工成本。   根据新思界产业研究中心发布的《“十四五”期间中国IVR(交互语音应答系统)行业分析及投资战略咨询报告》显示,在我国电信、金融、物流等众多行业快速发展的推动下,我国呼叫中心投资规模不断扩大,2012-2019年年均复合增长率达到16.7%,2019年达到2400亿元以上,继续保持快速增长态势。在呼叫中心快速发展的拉动下,我国IVR行业发展态势良好。   我国IVR服务商主要有雷霆无极(被TOM收购)、鸿联九五、腾讯、新浪、空中网等。2014年以来,随着人工智能技术不断进步,在资本的推动下,IVR市场认知度不断提高,在客观需求以及趋同心理的作用下,IVR在公司企业、制造工厂、餐饮零售等领域的普及率不断提高,使得我国电话语音服务业变化巨大,从人工客服向人工与IVR相辅相成方向发展,IVR在电话语音服务业中所占的地位越来越重要。   但现阶段,我国IVR行业发展依然存在瓶颈问题。由于IVR技术日益成熟,较多产品在开发时对现有产品进行模仿,对公司、企业、工厂的性质、产品、服务等缺乏了解,定制化服务能力不足,产品同质化现象严重,在实际语音服务过程中,难以达到客户预期咨询要求,或者咨询过程极为繁琐,使得客户体验度大幅下降。现阶段,较多客户进入IVR服务导航过程时,直接选择人工服务,IVR用处不大。   新思界行业分析人士表示,IVR技术的开发,是为了接待更多客户,完成简单、重复问题的回答,降低人工客服工作压力,缩减企业人力成本,提高语音服务效率与客户满意度。而现阶段IVR行业的同质化发展,不仅没有达到预期效果,反而使得客户体验下降,不利于行业健康发展。未来,我国IVR行业需向定制化、差异化、专业化方向进步。 原文章作者:新思界网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 女德吕 3 天前
    1494 0
  • 无接触式交互,疫情下智能家居市场的新机会
    无人机、无人车、无人零售……被推到台前的远程在线办公,以及无接触招聘,一场疫情,让无人化技术/服务、让无接触式交互迅速成为高光区。 智能家居作为新兴行业带来的无接触式的交互方式,带给人们更安全、智能、便捷的生活体验,让其在特殊时期优势突显,成为人们安全防范新宠。纵观发展,智能家居将迎来新的发展机会。 智能人脸识别,无接触,进出小区便捷安全 疫情期间,若有特殊原因需要进出小区那就人脸识别开门。让你告别接触式(刷卡、钥匙、指纹)开门方式,秒开方便且安全! 单元门口机内置人体红外传感器,当人靠近门口机时,在1米范围内,即可自动唤醒机器进行人脸识别,无需用户再进行其他任何操作。 室内一键呼叫,减少接触风险 封村、封城、封小区,很多地区开始实施封闭式管理。智能语音楼宇对讲系统、智能语音呼叫系统的应用可以帮助我们进行无接触交互控制设备,进一步降低接触式感染风险。科博睿尔智能室内控制终端无缝打通室内外智能服务,可以控制室内智能家居,也可以进行管理中心呼叫、信息管理、实时联动和管理。 语音声控,避免触摸留痕 智能家居时代,语音来控制家电已经是大势所趋。彻底告别传统的单一式按压触碰方式,有效避免触碰留痕。打开窗帘无需手动拉扯,现在只需要一声:“天猫精灵,打开窗帘”,窗帘便自动开启。家中的灯光、电视等电器都可以直接通过语音来执行操作。包括手机交电话费,你只要和天猫精灵一句话,她都能办理好。一句话关灯,主人的指令,全部都做好。 智能家居让智能无处不在 晨起唤醒起床:预约“起床模式”,早晨唤醒你元气满满的一天。 日常会议提醒:预约“会议模式”,准时让你赴会。 灯光调节:灯光明暗、颜色变化、背景音乐皆可随心设置,每天享受浪漫生活。 安防模式:接入安防设备,水电煤气等实时监控,包括非法闯入一旦触警及时通知并处理。 离家模式:按个人生活习惯,设置离家模式,所有电器关闭、灯光关闭,安防设备启动。 观影模式:一句话关闭窗帘、关闭灯,打开影音系统。 环境检测模式:实时检测室内温湿度、环境质量等,保障随时处在安全安心的环境中。 一键报警:突然生病、意外摔倒、自然灾害等可随时启动一键报警装置。 科博睿尔智能家居,安全、舒适、便捷、做到生活无处不智能,生活无时不美好。 我们当下的安心生活,是无数人为我们负重前行换来的,疫情当前,生活需要我们坚定信心,用实力和智能让生活更安全、更美好! 这次疫情对冲击了很多企业,但也为很多企业带来了机遇,经过此“疫”,人们会更加重视和追求安全、健康的生活方式。智能家居这种“非接触式”智能产品未来会越来越受到市场认可,迎来新的发展机遇。广大智能家居创业者们在做好科学防护的同时,更需要理清思路,做好规划,重新找回状态,化危机为转机。科博睿尔智能家居祈愿疫情早日结束,春暖花开,满目国泰民安。 原文章作者:科博睿尔智能家居,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 捉又 3 天前
    2603 0
  • 车载语音助手如何真正赢得用户?
    特斯拉再次降价,新势力搅动市场,自主品牌纷纷发力,智能网联汽车市场的竞争如火如荼。 传统汽车的智能化升级迫在眉睫,车内人机交互的体验,逐渐成为各大厂商竞争的焦点。 目前,车内人机交互的主流方式是语音交互,用户在车内不仅能够通过语音控制导航、音乐等车机软件,还能够控制少部分车内硬件,如车窗、空调等。 单纯的“主动控制”只是第一步,面向下一代的车载语音助手,势必要向更加富有个性化和情感化的语音交互方向转变。汽车这个下一代智能终端,也将成为个人的智能生活助手。 语音技术发展至今,通过深度学习构建模型已经逐渐成为训练语音助手的标准范式,模型的数据来源于用户日常的对话,数据越丰富详细,语音助手也就越智能。 *车载语音可操控多种车机功能 语音交互的本质,还是为用户提供更多的服务,服务的背后则是广泛的生态内容。生态内容越多,车主使用语音交互来获取服务的频度就更高,车主高频使用所沉淀的海量数据也必然会加速语音交互系统的迭代,二者之间相辅相成。 作为连接广泛生态服务资源的腾讯,可以说在培养下一代智能语音助手上基础深厚。日前,小编独家对话了腾讯云小微的专家研究员曹云波和马龙,与其共同探讨腾讯在车载语音方面的技术积累和行业研究。 车内语音交互具备特殊性和挑战性 智能语音助手落地广泛,其中,汽车作为最特殊的应用场景,与其他场景有着天然的差别,因此也更具挑战。 一方面,驾驶场景特殊性,给车载语音交互带来了一系列难题。 具体来说,驾驶员无法用手或者长时间盯着屏幕,因此,语音是一种必要的手段。但也正是由于在驾驶场景中,对于交互安全性,以及准确性、稳定性、简洁性、可靠性等,都有着格外严格的要求,应避免过度交互对驾驶的干扰。车内环境中的噪音对于语音识别的干扰,也是目前行业亟待解决的问题之一。 此外,如何平衡好车内的语音交互和物理按键,以及其他的视觉等多模态之间的交互逻辑,也是现阶段各家都一直都在探索的问题。 *理想one搭载腾讯云小微语音技术,可多模态唤醒 另一方面,目前用于车载AI语音训练的数据积累依旧不够,针对驾驶场景中的语义理解和验证仍需提高。虽然智能音箱、机器人等场景的交互数据能够给车内场景提供一定的数据支撑,但并不能完整代替车内场景交互的数据。 前文也有所言,语音交互的目的,是为了提供更多的服务,而服务的背后,则是广泛的生态内容应用。因此,如果能够为用户提供更多的生态内容服务,智能语音的交互自然就会逐渐累积起来,智能语音助手也将变得越来越智能。 对此,腾讯云小微专家研究员马龙也表示,随着语音助手的更多量产上车,相应的技术研究可以从先验的方式变成数据驱动的方式。用户对智能语音助手的训练,能够让它越来越智能,推荐的服务也越来越符合用户需求。 技术和生态服务互相促进,但前提是符合驾驶场景 车载语音助手作为车联网体系中的交互“界面”,对于整个车联网的体验起着至关重要的作用。因此,在2017年开始探索车联网服务上车的同时,腾讯也开启了相应的车载语音技术的构建。 腾讯云小微专家研究员曹云波认为,打造自己的核心壁垒,主要集中在两方面,一方面是来自于基础技术,只有基础技术足够成熟,才有机会在整个交互中给用户带来更好的体验。 举例来说,现在很多车机都是需要先唤醒再识别,然后完成单次的交互。但是在引入全双工交互技术后,就可以做到一次唤醒多次交互,交互体验自然就得到提升。 另外,一般车内语音交互主要强调为驾驶员提供服务,但随着车内软硬件升级,未来车载语音助手需要满足司乘双方不同的需求,司机可能是对驾驶相关的要求,但乘客可能会有一些娱乐的需求。对车内语音交互主体位置识别(司机、副驾、或后排)的技术演进也将极大提升副驾驶和后排的语音交互能力。 此外,还有多模态交互方式的进化,当前车内可能是单一的语音交互,将来很可能是融合视觉、触觉等多种形态方式,这也必将带来交互体验的提升。 除了基础技术之外,生态内容服务则是智能语音助手的土壤。车内智能化服务符合用户需求,因此用户愿意通过语音与之交互,车内智能化服务与语音交互互相促进,带动生态的繁荣和技术的进步。 *生态服务助力提升车内用户体验 以腾讯为例,QQ音乐、腾讯地图,这些车载场景下的刚需产品最先上车,也在此基础之上逐渐扩大生态服务体系。曹云波表示,我们在做车载导航的时候,对腾讯地图的资源也做了比较彻底的优化,不光是语音端,包括在地图后续的一些服务端,都拉通做一些优化,使用户获得更流畅的体验。音乐方面也同样如此,针对驾驶场景,通过语音控制和算法推荐,以及和位置服务结合,有望实现差异化的体验,为用户提供个性化的内容。 车载技术一直在进步,会拓宽用户的使用场景,连接更广泛内容。同样因为有这种需求,也在推动技术的快速迭代。不过,针对下一代智能座舱,曹云波也说到,腾讯会深度考虑符合驾驶场景和用户需求的生态内容上车,而非照搬手机应用。例如,引入车载场景需要的加油、洗车、保养等这样的小场景服务。 从语音侧来讲,在车上强调的更多的是安全性和鲁棒性,这是一个重要的技术迭代方向,不能为了极致的体验失去安全性。同时,曹云波也强调,连续对话+广泛的生态内容服务+更具情感化的个人虚拟形象,也必将成为车载语音业的重要演进方向。 一是连续对话,避免用户多次唤醒,可以更流畅的使用交互。二是多模态方向,怎么跟车上的触控或者是车上的按键操作能够更好的融合,以及车内多种交互模态更多的融合,通过符合驾驶场景的交互方式,连接到丰富的生态服务。 还有更重要的一点,就是更为拟人化,让用户可以把车载语音助手当作自己的朋友。不过,曹云波认为,这方面主要取决于车厂对这个产品形态的理解。蔚来的nomi的出现,在行业中成为了典型代表,引发了后续多家效仿。而如果只看到了表象,给不到用户真正服务的内核,是无法深入人心的。目前腾讯云小微也在跟合作伙伴探索,结合IP形象,让虚拟助手更具情感化、更鲜活。 *蔚来nomi 结语 车载语音助手发展至今,还没有完全在车内取代手机。 音箱、手机上,越来越多的用户已经了解并逐渐习惯语音交互,如果在车内,有一个体验相近,学习成本不是很高的交互方式,用户会不会买单?汽车行业、AI行业都在朝着下一代更具个性化、情感化智能语音助手迈进,真正解决用户问题,让用户从手机上解脱出来的体验,才能获得用户。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 司书仪 3 天前
    3931 0
  • 非接触经济时代,语音控制电梯花式落地
    2020年春节伊始,一场新型冠状病毒肺炎牵动着亿万人民的心。肺炎疫情防控期间,每条街道,每个小区,每个楼栋……都是这场“人民战争”必须坚守的阵地。这不,为了打赢这场战役,到处都可以看到人民群众的智慧和决心。 世界卫生组织在官网发表报告称,根据目前证据,呼吸道飞沫和接触传播仍是新冠病毒的主要传播途径。中国工程院院士李兰娟也提到:除了呼吸道传播以外,还可以通过接触传播,也就是说病人呼吸道出来的飞沫可能会污染周围的环境,所以当我们的手到处摸的时候,有可能在手上得到污染和感染。接触传播主要是通过接触沾染了病毒的公共物品,一般需要注意的公共物品主要有门把手、开关、电器、遥控器、马桶等,每次使用前后消毒带来了很大的不便性。为了避免各种接触传播的途径和减少可能会接触到病毒的概率,语音声控这种非接触控制的方式逐渐进入人们的视野。 电梯空间狭小、环境密闭、人员流动较大,这样的特殊环境为病毒的传播创造了优厚的条件。虽说病毒在干净光滑的物体表面不易存活,但电梯按钮是人们高频接触的地方,于是相互接触导致交叉感染的几率随之变大。 近期推出电梯智能语音模块/方案的厂商主要包括:科大讯飞、思必驰、上海互问、云知声、声智科技等。 科大讯飞 讯飞智能电梯语音方案离线版 (1)高性价比芯片:基于语音芯片CSK4002,算力高达 128GOPS,集成了科大讯飞的语音算法,具备低成本、高抗噪、易集成的特点 (2)楼层索引功能:面对高端酒店、商场、医院等特定场所,不仅支持常规电梯的楼层语音指令,还支持按照索引进行楼层指引的方式(如,乘客可说“我要去宴会厅/电影院/挂号处),帮助乘客快速定位目标楼层 (3)精准离线识别:支持200个离线命令词识别,满足电梯场景需求,并对儿童、老人、方言口音的识别进行定向优化 (4)高识别率:平均识别率95%以上,基于讯飞深度神经网络算法轻松解决电梯楼层相关指令较多导致易串扰、误识别的难题 (5)低误唤醒率:高噪环境下误唤醒频率≤1次/72小时,唤醒率>95% (6)多种交互方式:支持全双工交互,一次唤醒,多轮对话;支持“one-shot"模式,即”唤醒词+命令词"一体化形式,实现语音唤醒和语音操控无缝对接,让乘客和电梯交互更自然 讯飞智能电梯语音方案在线版 (1)优异唤醒效果:采用深度神经网络算法,具备优异的唤醒效果,在严格控制误唤醒的情况下,唤醒率可以做到95%以上 (2)方言精准识别:方言口音普通话自适配,21种方言精准识别,满足居民楼、写字楼、医院、商场等场所乘客多元化需求 (3)多种交互方式:支持全双工交互和"one-shot"模式,打造自然流畅的人机交互体验,让乘客与电梯之间的交互更贴近人们日常交流习惯 (4)丰富线上内容:可实时获取疫情最新进展、防疫科普知识、天气预报等最新资讯 ——以上资料来自科大讯飞股份有限公司公众号 思必驰 思必驰智能电梯离线语音方案,纯离线识别,无需网络,响应零延时;模型小巧,可快速对接落地,支持现有电梯改造和原厂内置,数小时即可完成安装应用。针对现有原厂内置和电梯改造,推出两种合作方式—串口通信模式和线控模式。 一、针对前装整机厂、电梯零部件厂商,推出串口通信模式:语音模块通过TTL串口输出指令,根据不同电梯协议通过485/CAN总线和电梯中控柜通信完成,召梯、选层、楼层到达播报等功能。 二、针对电梯后装市场/前装整机厂/电梯零部件厂商/电梯维修商等,推出线控模式:通过语音指令直接转换成线控动作模拟人对召唤和选层器按键。通过线控模式将一台普通电梯改造成一台可以语音控制的电梯仅需数小时,这种方式能够快速应对及配合疫情控制工作。 ——以上资料来自苏州思必驰科技有限公司公众号 启英泰伦 方案特点: (1)该方案支持定制100+离线语音指令,可识别中文、英文、日文等,满足居民区、写字楼、医院等多元化的乘客语种需求。 (2)可采用纯离线方案,实现电梯的上下楼层等功能控制,也可采用“离线+在线”方案,通过连接WIFI获取天气预报、防疫科普知识等内容。 (3)为减少乘客等待时间,可支持“one-shot”模式,即“唤醒词+命令词”一体化方式,实现唤醒词与语音操控之间零间隔、零延迟、无缝对接。比如可直接说:“小T,去一楼”。 (4)语音播报:乘客不需看显示屏,到达所停楼层后系统便会自动进行语音播报。对于拥挤的电梯,这一功能非常实用。 (5)开放多种接口,兼容大部分主流电梯设备,可与各大电梯厂商、方案商快速对接测试,从而实现快速量产。 ——以上资料来自成都启英泰伦科技有限公司公众号 华镇 华镇电子研发的智能电梯离线语音模块,可根据不同的应用场景设置不同的语音指令,支持两双麦输入,通过离线语音识别芯片VB580进行处理,并反馈给电梯整机控制板。 技术特性: (1)识别距离可调:支持5-10米识别距离; (2)背景噪声抑制:稳态、动态噪音,环境噪声抑制>20dB; (3)本地语音识别(基于最新的TDNN深度神经网络识别算法),支持纯离线识别; (4)综合识别率可达95%以上; (5)识别时间小于100 ms; (6)误判率极低。 ——以上资料来自上海华镇电子有限公司公众号 声智科技 声智科技推出两款“无接触式”电梯AI语音控制方案。一款基于与杭州国芯联合推出的SoundPi离线语音模组打造,采用国芯的GX8008 AI语音处理芯片,内置声智针对电梯语音交互场景定制开发的专属算法,考虑带口罩影响声源信号采集的因素,并针对电梯封闭轿箱场景下的多径反射、混响及点击噪音干扰等难点问题进行优化。该方案采用RTOS系统,提供离线语音唤醒模式,无需联网即可实现本地语音控制,功耗成本可控,兼容多种主流的电梯设备,可以快速安装上线。 另一款方案基于声智与全志联合打造的SoundPi人工智能开发套件研制,采用全志R328芯片,支持离在线模式语音交互。提供离在线语音唤醒、远场语音识别、远场语音合成、自然语言处理等技术,采用Linux系统开发,支持开放更多功能口,可以根据用户需求深度定制。同样内置针对电梯语音交互场景定制开发的专属算法。同时,声智推出免唤醒多轮对话功能,在大批量乘客乘坐电梯时,只需第一次唤醒触发,后续可直接呼叫控制电梯升降,前往各个楼层,无需重复唤醒。 ——以上资料来自北京声智科技有限公司公众号 杭州国芯 通过芯片与方案之间的紧密配合,杭州国芯与声智科技共同开发的SoundPi离线语音模组、与方得智能共同开发的AYAH Quasar爱芽类星体系列智能语音模组,均已推出电梯智能语音解决方案。 这两款AI语音模组均搭载了国芯开发的系列AI语音芯片,拥有NPU神经网络计算单元、支持离在线混合工作模式,内置DSP语音信号处理器,能精准捕捉来自各个方向的语音信号,进行语音降噪处理,执行本地语音识别。 离线版本已实现语音呼叫电梯与楼层、语音播报提醒等功能;离在线混合版本还可以实现疫情通报、社区通知通报、天气预报、电梯使用情况记录等功能。 ——以上资料来自杭州国芯科技股份有限公司公众号 探境科技 基于探境音旋风611的方案,具有如下特点: (1)无需联网,纯离线识别; (2)支持唤醒词和命令词定制,且词条数可以达到200条的规模; (3)5m以内拾音唤醒率高于97%,命令词识别率高于95%; (4)支持带口音普通话的识别; (5)支持通过UART、GPIO、SPI、I2C等多种互联方案; (6)待机功耗低于15mw (7)可以提供具备完整功能的模块/模组,便于集成。 ——以上资料来自北京探境科技技术有限公司公众号 OPEN AI LAB OPEN AI LAB 的“无接触式”电梯AI语音命令控制方案,支持定制电梯控制多命令控制词,通过语音控制电梯操作升降楼层。考虑乘客乘坐电梯带口罩的模式,针对电梯封闭轿箱场景下的多种噪音干扰进行优化。提供离线语音唤醒模式,无需联网即可实现本地语音控制,功耗成本可控,兼容多种主流的电梯设备,可以快速安装上线。 关键特性如下: (1)离线唤醒词、命令词识别技术 (2)语音信号处理技术 (3)模型量化重训练、剪枝/蒸馏平台 (4)小尺寸模型,极低功耗 (5)可定制中英文命令词 (6)支持业内主流芯片Cortex-M、Cortex-A、HIFI、CEVA、RISC-V,Andes等异构平台,Linux、Android、RTOS等多种操作系统 云知声 云知声新推出的智能声控电梯解决方案,通过语音就可以操作电梯,完成全部乘梯操作;还可以实现零接触远程电梯“遥控”,通过微信小程序的方式呼叫电梯,将电梯直接呼叫到所在楼层目前。目前,云知声已经与日本知名电梯厂商达成合作,完成安装。 ——以上资料来自云知声智能科技股份有限公司公众号 上海互问 通过互问科技的语音降噪、去混响、回声消除等算法技术,融合高集成度的互问离线语音芯片W02x,乘客发出语音指令后,电梯就可立即按指令“行动”,全程无需触碰电梯按键,实现乘坐电梯“零接触”,从根本上杜绝接触带来的交叉感染。该方案是可以直接免破坏安装的,不需要与电梯通讯板进行适配,理论上可以用在任何品牌的电梯上,实现升级。 (互问语音智能语音SOC架构) 互问科技在疫情初期就接到了武汉疫区电梯方案商的需求,疫情就是命令,总经理缪炜年初二就紧急号召相关技术人员加班加点训练、调试、出模组。“看着广大一线医务工作者冒着生命危险在前线战斗,我们只能默默加油,现在有机会利用自有资源,帮助疫区同胞解决部分困难,我们深感荣幸,我们提供的模组和维护保障服务都是免费的,希望大家挺过难关,同力协契 共克时艰”缪炜说到。 根据中国电梯协会公开数据显示,截至2018年底,国内电梯注册总量达到627.83万台。未来在存量和增量双重驱动下,2023年我国电梯保有量将超过千万台。 另据前瞻产业研究院数据,我国一线城市的电梯保有量从2006年以来一直保持稳步上升趋势,并且上海的保有量在2018年达到25万台,深圳的增长速度显著,从2006年到2018年几乎增加了一倍多。 电梯这一新风口,市场规模不可谓不大。 在疫情爆发的当下,首批对非接触电梯控制方案有迫切需求的就是政府、医院以及部分公共场所,预计接下来在民用住宅、商业配套设施中将逐步推进。 无论何时何地,在人民需要的时候总有一些有担当、有魄力的人站出来,用他们的智慧和热情去帮助那些需要帮助的人们,中国的企业家们聚是一团火,散是满天星,照亮黑暗,砥砺前行。 如果您喜欢《CHN电梯侠》的内容,欢迎您通过以下四种方式关注我们: 1.CHN电梯侠标志; 2.点击屏幕右上角按钮【查看公众号】; 3.在【添加好友】 -【搜索公众号】中查找: CHN电梯侠; 原文章作者:bike电梯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 值蓊 3 天前
    1506 0
  • 於春 | 传播中的离身与具身:人工智能新闻主播的认知交互
    作者︱於春 摘 要 离身认知与具身认知在认知科学与人工智能中极为重要,但在新闻传播研究中少有理论关注。本文试图描述离身认知与具身认知的思想渊源、迭代缘由、理论主张以及二者的交互趋势。分析认为,作为认知科学与人工智能在新闻播报领域的典型应用之一,人工智能新闻主播源于离身认知,日益走向具身认知,不断尝试两种认知的交互融合;人工智能新闻主播持续创新的关键因素包括:具身性、情境认知、认知发展与动力系统。据此提出,离身认知与具身认知需要不断向前,放下非此即彼,走向更高阶交互的亦此亦彼,这是优化人工智能新闻主播的可能进路,也有益于媒介进化视域中人工智能与人类智慧的未来共处。 关 键 词 具身性; 情境认知; 认知发展; 动力系统; 媒介进化 1 问题的提出 智能化是席卷全球的又一波科技浪潮。2018年11月,新华社发布世界首位以真人新闻男主播为原型的人工智能“AI合成主播”,2019年3月,新华社人工智能新闻女主播上线。这既是新闻播报领域的一个现象级革新,也是认知科学与人工智能领域中离身认知(disembodied cognition)与具身认知(embodied cognition)的某种交互融合。本文试图予以探索:人工智能新闻主播在其演进中如何践行离身认知、具身认知及其交互应用?目前存在哪些问题?可能的优化进路是什么?从自适应、自组织、自涌现的媒介进化可能来看,人工智能与人类智慧如何未来共处? 图1 新华社发布的“AI合成主播” 需要说明的是,离身认知与具身认知在认知科学与人工智能领域极为重要,相关心理学、语言学、计算机科学、神经科学、哲学与人类学中皆有论述,然而在新闻传播领域,虽然有所实践却少有理论关注。涉及具身实践比较典型的有格斗游戏中的姿态现象学研究(章戈浩,2018)、VR虚拟现实技术的身体经验研究(周逵,2018)。相关的身体研究在文学、艺术学、后人类学、现象学与技术现象学中也多有涉及,新闻传播领域亦少有理论关注,不多的研究比如:把肉身当作传播的条件,重新审视身体与传播的关系,或许能够使得传播研究格局大开(刘海龙,2018)。马歇尔·麦克卢汉(Marshall McLuhan)思想或许存在被忽视的维度,比如身体与媒介、人与技术,这一论题在当下具有研究的必要性和紧迫性(刘婷,张卓,2018)。以虚拟技术复制身体使得“在场”和“缺席”失去原义。赛博人(cyborg)至少呈现了三种在场方式:携带自己的肉身、离开自己的肉身、进入其他的身体,从而“将人与技术的双重逻辑、实体空间与虚拟世界的双重行动交织互嵌在一起。”(孙玮,2018)根据“身体参与传播活动的完整度”,媒介形态可以分为四个阶段:“身体媒介”“无身体媒介”“身体化媒介”及“类身体媒介”,不同阶段存在媒介伦理变迁(刘明洋,王鸿坤,2019)。 随着人工智能新闻业的迅速崛起,身体研究、离身认知与具身认知及交互研究在新闻传播领域中较为缺少的状况有必要受到更多重视。当前人工智能新闻主播集合了一定的离身认知、具身认知及相关交互,具有比较典型的案例价值。本文以人工智能新闻主播为切入点,藉此引入认知科学与人工智能领域中离身认知、具身认知及认知交互的思想前沿,立足于新闻传播学中人工智能的学术前沿,希望有益于丰富认知科学与人工智能在新闻播报中的领域研究,有益于拓展人工智能新闻播报的认知交互理论研究——新文科交叉学科研究。同时呼应世界人工智能的发展趋势,服务于我国人工智能国家战略和新闻传播实践前沿,着眼于当前人工智能新闻播报的成就贡献及优化可能。 2离身认知的渊源、成就与反思 离身认知(disembodied cognition)是第一代认知科学的主导思潮,也是人工智能的理论来源,着重强调认知在功能上是能够脱离人的身体而独立存在的。离身认知的思想渊源可以追溯至古已有之的身心二元论。柏拉图试图将世界区分为:感性世界与理念世界。感性世界是人们通过身体的感官活动比如视觉、听觉、触觉等来认识的。理念世界则须经由灵魂的理性能力从而了解,理念世界在本质上高于感性世界。基督教会一直主张灵魂是人的本质,宣扬即使肉身毁灭,灵魂仍在,即“灵魂不朽”。17世纪,法国哲学家、数学家勒内·笛卡尔(RenéDescartes)的著名格言“我思故我在”等,也论述了身体与心灵的二元存在。然而,“如果把一切归结为精神,世界被观念化,人就成为一个超然的意识主体;如果把一切归结为物质,人就成为了机器。”(叶浩生,2011)作为前一种观点的主要代表,格奥尔格·黑格尔(G.W.F.Hegel)认为身体是心灵的外化,世界是“绝对精神”的体现。朱利安·拉美特利(Julien La Mettrie)则代表着后一种观点,在其机械唯物主义,如“人是机器”论中,人的意识、思维和物理世界的力学原理有一致性。事实上,身心二元论虽早有思想成就,但也存在着某种现实困境,那就是只要接受身心二元论,就不得不面临类似的非此即彼的艰难选择。在行为现象学、人工智能哲学的开创者赫伯特·德雷福斯(Hubert Dreyfus)看来,人工智能这一现代工程技术实践,其哲学思想向远可以追溯到苏格拉底(Socrates),由近可以追溯到埃德蒙德·胡塞尔(Edmund Husserl)(徐献军,2017)。虽然人工智能工程技术实践者们未必读过上述哲学著作,但是他们主张人工智能可以脱离身体的哲学假设,主要来源于理性主义思维。准确来说,人工智能离身的哲学假设、胡塞尔的现象学及马文·明斯基(Marvin Minsky)的表征主义框架理论等,均为苏格拉底、柏拉图(Plato)、笛卡尔以降的西方理性主义传统思维的某种延续。 图2 勒内·笛卡尔 离身认知同时也意味着认知是可以计算的。以“图灵机算法可计算”为基础,“认知可计算主义”逐渐成为认知科学领域的研究纲领(刘晓力,2003)。由于大脑科学、复杂性科学和计算机技术的不断发展,认知科学也经历了不同工作范式的转换和竞争:从最初的符号主义到联结主义再到行为主义,从最初的问题求解程序发展为人工神经网络及至人工生命的研究,从符号计算推进为神经计算乃至进化计算(阎平凡,张长水,2002:357)。事实上,这些范式的不断转换和相互竞争,某种程度上来看正是源于对“认知的本质是计算”这一强纲领的深刻挑战。虽然“计算主义”获得了显著的成就,但是在认知科学和人工智能领域的进一步突破长期以来困难重重。 关于离身认知和“计算主义”的反思主要集中于: 哲学上的反思。人类的大脑、心灵和当前的计算机性能有着“本质差别”,大脑的某些功能或许如同一台计算机,但是心的本质不是可以计算穷尽的,这是更深层和更高级的智能活动。虽然计算机程序可以按照语法规则定义,但其本身不足以确保语义的微妙呈现和心的意向性。当然,对于“机器永远不能超越人心”这一论点,库尔特·哥德尔(Kurt Gdel)倒是不反对用其不完全性定理作为部分论据。然而哥德尔也曾指出,要推导出这一强硬结论还有待附加两个哲学假定:人心(mind)没有物质载体;人类理性提出的问题人类理性一定能够解答(王浩,1997:472-474)。 复杂性科学与生物学的反思。大脑的每一部分都是特异化的,整体心智活动是在其交互作用中得以完成,这与当前计算机存在本质不同。“心脑活动的基础符合非力相关性原理,呈现出一种依存性的、内在的、整体自涌现的形式,它并非一个完全一致的系统”(周昌乐,2000:256-264)。因而需要引入复杂性科学和生物学维度,而不是理性主义、物理主义和还原主义的极端化。另外,人的心智仍在不断进化,现代科学对于大脑的功能、意识的深层、心的本质等目前仅有极为肤浅的认识。在这种不多的认识下,试图用哥德尔定理来推断计算机永远不能或永远能超越人类心智,为时尚早。 计算机技术的反思。有些专家认为,如果计算机集成电路中包含的基本元件及其连接规模,能够大大超过大脑的神经元件和连接规模,计算机就有望如同大脑那样自涌现出高级心智。但是密尔本(G.J.Milburn)也曾指出,无论量子计算机的规模和速度多快,也依旧是以“丘奇—图灵”论题为理论基础,依旧是一种基于量子图灵机的计算机。因而,期望以量子计算机来模拟人类智能并且自涌现出高级心智,还是没有脱离“认知可计算主义”研究纲领(刘晓力,2002)。即使计算机程序能够产生自涌现的特性,以切廷(G.Chitin)的算法信息论来看,计算机的复杂性本身仍有相当大限度,希冀计算机的复杂性实现人类心智的复杂性尚有相当距离,而复杂性之复杂性本身又是另一大难题(刘晓力,2003)。 作为认知科学与人工智能在新闻播报领域的实践应用之一,人工智能新闻主播本质上难以脱离也基本遵循着离身认知、“计算主义”这一认知进路。人工智能新闻主播尝试离开真人主播的身体,试图通过不断更迭的计算机技术及算法程序来构建形象、模拟行为、复制功能等。然而,前述身心二元论的现实困境,“认知可计算主义”在哲学、复杂性科学和生物学、计算机技术三个层面上的反思,既是对离身认知、“计算主义”的深刻质疑,也是对人工智能包括人工智能新闻主播的离身进路的深刻质疑。无可否认,离身认知、“计算主义”取得过巨大成就与贡献,与此同时,也恰是诸多反思质疑推动着认知科学、人工智能不断向前进行新的探索。 3具身认知的兴起、源流与主张 具身认知(embodied cognition)被视为“第二代认知科学”研究的新进路。“第二代认知科学”的标志性倡导为:身体是心智的基础,身体在人类认知及相关社会活动中具有首要作用。人们持续认识到,将人的认知活动仅仅当作审视意识的符号思维水平,这不仅极为片面而且是有害的。具身知哲学地和经验地阐释,身体是心智表现的最初样式,是我们接触、介入、认知和拥有世界的枢轴(李恒威,黄华新,2006)。 具身认知的思想渊源,拉考夫和约翰森(Lakoff&Johnson,1999:256-261)在其名著《体验哲学:具身认知及其对西方思想的挑战》中特别指出了约翰·杜威(J.Dewey)和莫里斯·梅洛-庞蒂(Maurice Merleau-Ponty)的贡献。比如杜威认为:我们的身体经验(bodily experience)是我们能够“意谓”“思考”“知道”和“交流”之所有的最初的基础。梅洛-庞蒂在《知觉现象学》中则区分和界定“客观身体”与“作为世界中介的身体”,成为具身认知最直接的思想来源之一(李其维,2008)。梅洛-庞蒂(1945/2001:538-540)指出:身体最为直接地“在世界中存在”,“身体本身在世界中,就像心脏在肌体中”。“不通过身体的经验,就不可能理解物体的统一性”,“物体的综合是通过身体本身的综合实现的”,而对于外部事物的知觉“直接就是我的身体的某种知觉”。马丁·海德格尔(M.Heidegger)、列夫·维戈茨基(L.S.Vygotsky)、让·皮亚杰(J.Piaget)等所进行的一系列开创性工作也都与具身性有关(Thelen,Schner,Scheier&Smith,2001)。 德雷福斯的人工智能哲学及人工智能身体观,创造性地阐释了海德格尔的此在哲学与梅洛-庞蒂的身体现象学,富有成效地将之与人工智能、计算机科学沟通起来并且推进了这些领域的研究。德雷弗斯(1972:177-178)认为:“当我们栖居于世界中时,与我们同在并且根植于它们指称情境的有意义对象,不是储存在我们的心中或脑中的世界模型;它们就是世界本身。”这种思想即是海德格尔的“在世界中存在”思想,“在世界中存在”也是最基本的智能活动,亦是启发斯坦福大学计算机科学系教授威诺格拉德等人工智能专家的海德格尔式人工智能(Heideggerian AI)。德雷福斯认为:认知主义最大的缺点之一就是离身认知(disembodied cognition)。相关哲学论据使德雷弗斯(1972:xi-xii)看到:“数字计算机由于无身而导致的局限性,比由于无心而导致的局限性更大。”德雷福斯对优化人工智能的第一个建议就是:要重视身体在智能行为中的作用。“在对机器进行编程的努力过后,人们会发现:把人与机器区别开的东西(不管机器建造得多么巧妙),不是一个置身局外的、一般的、非物质的灵魂,而是一个置身局内的、自主运动的、物质的身体”(Dreyfus,1972:148)。德雷福斯的人工智能身体观,源于梅洛-庞蒂在知觉现象学中的核心概念:身体。梅洛-庞蒂(2012:431)还将存在落实到了身体上,以克服海德格尔“在世界中存在”的形式化缺点: 图3 海德格尔 如果主体在情境中,甚至就是情境的一种可能性,这是因为只有当主体实际上就是身体,并通过这个身体进入世界中时,才能实现其自我性。在我反思身体的本质时,如果我发现身体与世界的本质相关联,这是因为我作为主体性的存在,就等同于我作为身体的存在以及世界的存在。 德雷福斯对海德格尔的存在主义和梅洛-庞蒂的身体现象学的强调,与认知科学中的具身认知范式关系紧密。人工智能研究重镇麻省理工学院的著名机器人学教授罗德尼·布鲁克斯(Rodney Brooks)(1999:167)提出: 智能系统的具身(embodiment)是至关重要的,而这有两个原因。首先,只有具身的智能体,才可成为能够完全应付真实世界的智能体。其次,任何内在符号系统或其他系统,都只有通过物理根基(physical grounding),才能得到立足点并使系统内部运行的进程具有意义。 “新计算主义”悄然浮现。不同于“计算主义”过于注重“认知的可计算性和算法至上”,“新计算主义”包括但不限于智能体的计算装置和能力,转而更加关注系统构架的“交互作用”(interaction)。舒尔茨(M.Scheutz)在《计算主义:新的研究方向》一书中,倡导推动“基于虚拟机的新计算主义方向”,着重强调其核心要义是构架(architecture)系统中不同组件的交互作用(刘晓力,2005)。在这一假设构架中,认知、心智的过程和状态能够通过虚拟机的“交互作用机制”做出阐释。布鲁克斯(Brooks,1999:133-186)也曾提炼出理解智能的四个关键概念:“情境性”(situatedness)“具身性”(embodiment)“智能”(intelligence)和“突现”(emergent),四个关键概念均指向“交互”:认知主体与情境的交互,身体与环境的交互,智能体内部装置之间的交互,智能体与情境、环境之间的交互,“突现”亦是智能体与周围各种交互的总体行为,等等。“计算隐喻”是对“认知的可计算性和算法至上”的强调及暗示,“新计算主义”对于“交互作用”的强调及暗示,被认为是“交互隐喻”。在舒尔茨倡导之前,斯坦尼(L.A.Stein)所著《挑战计算隐喻》中也曾指出,由于“第二代认知科学”和人工智能更加重视具身性、主体和行为,以致“计算隐喻已经被交互隐喻所取代”(刘晓力,2005)。“新计算主义”研究焦点的转向,除了理论内部存在一些难以突破的困境,其外部动因也包括来自非计算主义研究进路的质疑挑战,比如具身认知和情境认知等。在认知科学的相关领域,包括人工智能、机器人理论、人工生命、发展心理学、认知语言学和心灵哲学中,具身认知、情境认知、交互隐喻都有所体现,由此产生一个个交叉科学新领域。 作为认知科学与人工智能在新闻播报领域中的典型应用之一,人工智能新闻主播走向具身认知、交互隐喻这一新进路,符合认知科学与人工智能的发展进程。具身认知、交互隐喻是在反思离身认知、“计算主义”困境与局限中产生,人工智能新闻主播源于离身认知、“计算主义”,有必要不断走向具身认知及交互隐喻。同时,离身认知与具身认知也无须对立,事实上他们在不同阶段有不同侧重呈现交互上升,只是有些时候容易被激进、被极化,人工智能新闻主播的认知发展也需要避免某种激进、极化。 4人工智能新闻主播的认知交互:离身认知、具身认知及持续创新 人工智能新闻主播诞生之前,曾经出现一波虚拟主持人热潮,开始萌动人工智能在新闻播报领域中的离身认知、具身认知及交互应用。互联网发展初期,能够播报新闻的虚拟主持人“安娜诺娃”于2000年4月由英国报业联合会新媒体公司推出。其后在一些国家相继出现了一系列虚拟主持人,如中国“Go girl”“言东方”“伊妹儿”和“江灵儿”,美国的“Vivian”,韩国的“Lily”等。虚拟主持人的离身认知探索主要体现在:试图离开真人主持人身体去传播信息;基本依靠真人线性配音,尚未实现如今可以离身重组的智能语音播报,也未实现如今可以离身重组的智能视音频播报。虚拟主持人的具身认知探索主要体现在:采用新造的动画人物身体形象;为新造的动画人物命名,命名是人类的身份认知、自我认知、社会认知的重要构成之一。尽管虚拟主持人尚未具备今天的智能化,但是开始试图探索一定的离身认知、具身认知及其交互应用。由于技术上较为初级,认知、心理、情感上也难以弥合与观众的距离等,虚拟主持人热潮并未持续发酵,但是却启发人工智能在新闻播报领域不断向前。 智能语音合成技术出现在新闻传播前沿,继续探索人工智能在新闻播报中的离身认知、具身认知及交互应用。与此同时,大数据分析选题、机器人采写、算法推送、数据回收计算反馈等人工智能技术在我国新闻传播领域不断推广蔓延。2016年2月,中央电视台新闻客户端6.0版本采用智能语音播报,开发“路上轻松听新闻”功能。央视智能语音“路上轻松听新闻”的离身认知主要体现在用户在此功能中听见的,并非真人主播的线性播报或配音,而是采集真人主播的语音,离开真人主播的身体,建立新闻语音数据库,通过智能语音技术自动合成的新闻播报。央视智能语音“路上轻松听新闻”有一定离身认知,但是具身认知尚不明显。2018年1月中央电视台纪录片《创新中国》中采用智能语音合成技术让已逝著名配音人李易的声音重现荧屏,这部纪录片在运用智能语音合成技术探索离身认知时,有一定的具身认知意图,主要体现在:这个纪录片中的配音人已逝,不可能完成自然状态下的线性配音,通过采集建立已逝配音人的语音数据库,运用智能语音合成技术,自动选取相关内容的语音数据,在纪录片导演的艺术性把握下,创造已逝配音人的新作品,从而产生某种程度上的具身认知——人们听到智能合成的熟悉声音,或许能够在认知上、审美上对已逝配音人展开声音想象、建构声音形象,达到创新与纪念的人文效果。 图4 中央电视台纪录片《创新中国》 人工智能新闻主播进一步探索人工智能在新闻播报中的离身认知、具身认知及交互应用。2018年11月,新华社发布世界首位以真人男主播为原型的人工智能“AI合成主播”并在随后命名为“新小浩”。2019年3月,新华社采用真人女主播为原型的人工智能新闻主播“新小萌”上线。而在此之前,2018年4月日本放送协会(NHK)推出人工智能新闻主播“Yomiko”,2017年6月英国独立电视(ITV)《早安英国》中推出机器人主播“Sophia”。英国广播公司(BBC)广播四台《今日》节目甚至考虑用机器人主播模仿真人主播的风格并主持采访环节,采访内容是人工智能的未来。人工智能新闻主播纷至沓来,其离身认知主要体现在:尝试离开真人主播身体的自然线性播报,通过提取真人原型在新闻播报中的语音、唇形、表情、动作和形象等,运用智能合成技术和深度学习等联合建模数据库,将所输入的中英文文本非线性自动生成相应内容的智能音视频,试图展现与真人主播类似的新闻播报、信息传播效果。 需要特别关注的是人工智能新闻主播的具身认知及相关交互,可能成为人工智能新闻主播持续创新的关键要素。如前所述,具身认知被视为“第二代认知科学”研究的新进路,认知科学的具身转向及物质基础同时也呼应着整个社会科学中的物质性转向(Apperley&Jayemane,2012)。具身性、情境认知、认知发展和动力系统成为“第二代认知科学”的四个典型主张,由此奠定了“第二代认知科学”的基础共识(李恒威,黄华新,2006)。四者当中,具身性(embodiment)被看作“第二代认知科学”最重要的核心概念,情境认知、认知发展和动力系统也都与之密切相关。 其一,人工智能新闻主播的具身性(embodiment)。人类的心智在本质上是具身的生物神经现象,而非无形质的思维形式。同时,人类机体的认知能力也是神经系统活动的整体显现(appearance),是在身体-大脑的相互作用下完成的。人的心智并非某种离身的智慧“偶然而恰巧地”发生在人的身上从而才有了所谓“人的心智”。“回到生物学中去找约束”(李恒威,黄华新,2006),意指大脑活动根本上不同于计算机活动,人的心智来源于温软的肉身而非冷硬的机器,天然自会受到身体、生理、大脑、神经等约束。就人工智能新闻主播的具身情况而言,目前比较典型有源自真人主播身体形象的新华社“AI合成主播”“新小浩”“新小萌”,采用动画人物身体形象的日本放送协会(NHK)人工智能新闻主播“Yomiko”,源自机器人身体形象的英国独立电视(ITV)人工智能新闻主播“Sophia”。综合考量传播效果比如情感上的亲和力、可信度、人格化和权威性,采用真人主播身体屏幕形象的智能播报,或许优于虚拟主持人时期的动画形象,以及当前智能主播时代的动画形象或者机器人身体屏幕形象——英国独立电视(ITV)人工智能新闻主播“Sophia”,其机器人身体及屏幕形象曾被观众认为有“恐怖”感,其后也折射人工智能与人类智慧如何未来共处。另外,中国、日本和英国的人工智能新闻主播都有各自命名,由此带来的人格化、身份认知或许能稍许弥合人工智能的受众认知分歧、社会认知差异。需要注意的是,是否采用真人形象其实无关乎具身认知,比如平衡车只是行驶设备并无人体形象,但是它通过感应人体重心移动来驱动、变速和转向,还能通过限速来培养初学者,即为具身认知、具身性和人机交互的某种应用。具身认知与具身性的蕴含和应用广阔,人工智能新闻播报的具身性及其应用优化亦有更多期待、更多想象力。另外,人工智能新闻主播的具身性还体现在围绕身体交互展开的情境认知、认知发展与动力系统等。 其二,人工智能新闻主播的情境认知(situated cognition)。如前文所述,海德格尔、梅洛-庞蒂及德雷福斯均对身体与情境的关系予以强调,情境之于身体是内在的、本质的,而不是外在的、偶然的。具身心智实现于情境的约束中,认知必须互动呼应于情境的状况和变化,而不是对于情境的单向投射(李恒威,黄华新,2006)。例如新华社人工智能“AI合成主播”,文本“一度创作”和新闻播报“二度创作”有很大不同,文本“一度创作”中没有直说、不便直说的言外之义、新闻蕴涵,有经验、有思想的真人主播在新闻播报的“二度创作”中可以采用停连、重音、语气、节奏、情景再现、内在语和对象感等方法呈现出来。不同真人主播对新闻蕴涵的理解判断不同,播报中的“二度创作”也不同。微妙之处正是新闻播报的准确性、个性化、创造性之处,也是不同真人主播在业务水平上的重要区分标准之一。同一文本不同真人主播的新闻播报艺术性尚且如此,不同的栏目、平台、地域、受众、时机呢?因此,尽管新华社人工智能“AI合成主播”诞生即突破,迈出了关键一步,但是在不同情境中的认知互动有待加强。情境认知在很大程度上决定着新闻播报更高级的艺术性、创造性。新华社人工智能“AI合成主播”目前采集了真人主播的身体形象和语音数据,对于真人主播身体感应的相关数据比如情境、发展、动力系统等还有待进一步采集建库、研究开发,这些数据可能是人工智能新闻主播持续创新包括在不同情境中进行认知互动的更大基石。“回到生物学中去找约束”、回到身体,或许是人工智能新闻主播的有效且高效的优化进路。在这个意义上,作为中国人工智能新闻传播的本土化、在地性的创新探索之一,新华社人工智能“AI合成主播”未来可期。 其三,人工智能新闻主播的认知发展(cognitive development):一个直观的事实是,认知不可能完全由遗传来决定,人类的认知能力是在复杂情境中起源和发展的。如果说具身人工智能的目标不包括模拟和解密人类智慧,那么目前它是相当成功的;如果考虑到它不仅试图模拟人类的部分智慧,还希望发现人类智慧或生命的真正奥秘,那么现有的具身人工智能依旧相当初级(徐献军,2017)。比如,上文讨论到当前人工智能新闻主播虽有文本也难以进行播音“二度创作”。新闻信息瞬息万变,复杂情境是社会生活的某种折射。在紧急情境下、即兴评述时,人工智能新闻主播如何认知、理解、感受、表达?如何体现真人主播在某种突发情况下的静默、流泪、欢笑、愤怒?如何不着一字、不发一声,仅凭眼神、表情、体态、动作、姿势就传递态度、情绪、情感?如何处理采访对象的顾左右而言它、避重就轻、闪躲不谈、笑而不语?如何面对短兵相接、步步紧逼、质疑挑衅、环环相扣、抽丝剥茧、进退得宜?如何展现言内义外的机锋、重话轻说的笑骂、无厘头式的解构重构?如何理解出错、将错就错及可能的创造性?如何认知新闻实践中的人性幽微、社会生活中的简复冗繁、历史进程中的偶然必然?从虚拟主持人、智能语音播报到人工智能新闻主播,从人工智能新闻播报的标准性到艺术性、创造性,从人工智能有稿播报到人工智能无稿即兴比如人工智能作诗作曲写相声,其进程既是人类智慧对于人工智能的认知发展,也是人类智慧主导下人工智能的不断演进。人工智能新闻主播还能达到什么程度呢?能够自主认知、发展进化吗?人工生命、智能有机体以及进化计算等或将进一步解答。 其四,人工智能新闻主播的动力系统(dynamic system)。认知是一个系统的动力涌现,同时涉及大脑、身体和世界之间相互复杂作用,而不仅仅是大脑中的一个孤立事件。具身心智的认知活动同时和情境相耦合,动力系统即是探索此类耦合情况下认知发展进化的动力机制。比如,目前具身人工智能体通过“感觉-运动”的反馈循环来获取的意义,仍是外赋的,而非内生的(徐献军,2017)。约拿斯在其控制论批判中指出:反馈循环不是有机体有目的行为的充分条件。自动搜索目标的鱼雷和觅食的兔子二者之间区别在于鱼雷的反馈循环运行不运行皆可,而兔子的反馈循环必须始终运行,因为这就是它的存在方式。换言之,鱼雷反馈循环的开闭运行取决于外界使用者,而兔子则取决于自身(生存压力下必须觅食);兔子觅食行为的意义是自生的,而鱼雷搜索目标的行为意义是外赋的(Froesea&Ziemkeb,2009:473)。当前具身机器人依旧不能在世界中获得自生的意义。人工智能新闻主播的自发性、主体性与能动性也有限,目前还无法实现真正自主的采写、编评、播报,而是由其后的人类团队主导完成。无论是智能语音合成技术,还是智能视音频合成技术,都远远未能达到自组织、自适应、自涌现的高级心智,与人类智慧程度的自主采写、编评、播报相去甚远。或许,随着认知科学与人工智能的进一步发展,包括离身认知、具身认知及其交互应用的进一步突破,人工智能新闻主播的自发性、主体性与能动性会而逐渐产生?人工智能新闻主播的自发性、主体性与能动性,这既是科学问题,甚至是带有一定科学幻想色彩的问题,同时也是法律规制、伦理哲学问题。 5人工智能新闻主播的优化可能:离身认知、具身认知与高阶交互 人工智能新闻主播的相关问题难以穷尽,正如当前的认知科学与人工智能、离身认知与具身认知、“计算主义”与“新计算主义”甚而整个科学也难以穷尽奇妙精巧、广阔深邃的人类世界本身。然而,问题求解、好奇心亦是人类不断认知自身、不断向前发展的原动力。 离身认知需要不断向前,人工生命和进化计算存在可能。早期的人工智能研究主要集中于逻辑推理的方法和程序规则的系统,在此之后更多认知科学家不断走向不限于逻辑推理的方法和程序规则的系统,转而进入以非线性科学、细胞自动机、形态形成和遗传等理论为基石的人工生命研究,经由计算机来生成自然生命系统为的仿真系统,通过信息数学模型来模拟进化的遗传算法,力图了解真实世界中的生命和生命过程(阎平凡,张长水,2002:357)。人工生命的倡导者主张,生命是系统里各个不同组成部分及相应功能的有机化,在物理机器上能够用不同方式创造这些功能的各种特性,进化本身可以视为一种探索试验的复杂过程,最重要的是生物本身由其自组织性、自适应性造就,并不在于是否由有机分子组成(波素马特尔,1998/1999:200)。由此,人工生命倡导者希冀就不是要再造一个大脑,而是借助遗传算法不断进化出一个大脑。目前以人工生命为代表的行为主义被认为是极有前途的研究范式,重点强调复杂性科学和“人工有机体”的自组织、自演化、自涌现特征。虽然“生命的本质就是计算”未必都能认同,但是人工生命及其进化计算成果的确是不断给认知科学变迁带来新启示。 具身认知也需要不断向前,不时回顾原初也是一种思路。著名的机器人学者布鲁克斯在所著《没有表征的智能》中提出,人工智能在现有计算机理论基础上,尚未充分反映生物组织的智能,人类和其他动物是通过不断学习来调整行为以便更好地适应环境从而认知的(Brooks,1991)。由此,我们似乎可以循着进化的阶梯由低而高地寻找智能的源头。布鲁克斯(1991)认为:“当我们研究了非常简单的低等智能时,发现关于世界的清晰的符号表征和模型事实上对了解认知起到阻碍的作用,这表明最好以世界本身作为模型。”布鲁克斯还试图用人工造物系统来模拟场景、环境、情境。需要注意的是,不时回顾原初并不等于回到纯粹的还原主义、物理主义和理性主义,而是有必要融合复杂性科学和生物学眼光。与此同时,依旧需要回答前述哥德尔的两个哲学问题:人心(mind)到底有没有物质载体?人类理性提出的问题人类理性是否一定能够解答?计算机的复杂性本身仍有相当大限度,希冀计算机的复杂性实现人类心智的复杂性尚有相当距离,而人类智能的自涌现、自适应、自演化或许是复杂性之复杂性其后突现的简单性。 离身认知与具身认知需要不断走向更高阶交互,以解决更高级的人工智能认知问题。在持续进行的适应性生存演化中,人类认知的不同方面与不同水平彼此协调、相互促进从而共同形成一个“统一的姿势”,而不是相互独立、彼此排斥和截然分开的。既然人的“统一的姿势”是由不同方面与不同水平的认知共同形成,在人工智能认知上也不必在两代认知科学之间做出非此即彼(either-or)的两难取舍,而可以采取亦此亦彼(both-and)的交互融合(Clancey,1997:225-242)。若非第一代认知科学家严格秉持计算思想,也不会有计算机、互联网、人工智能等如此巨大的当代成就。恰如克兰西的看法:“最重要的是,我不认为描述的模型是错误的而情境认知是正确的。相反,我的宗旨是揭示不同的观点如何可能调和。我发现这样的观点常常是有益的……”(Clancey,1997:3)更进一步,亦此亦彼(both-and),而不是非此即彼(either-or),适用于离身认知与具身认知的和谐共处,也有益于未来社会人工智能与人类智能的协调共存。“日益崛起的技术力量和日益提升的人类智慧之间进行的不是一场竞赛,而是一个携手并进相互扩容的过程。”(殷乐,2016:24) 在这篇文章中,我们以人工智能新闻主播作为典型案例,概要回溯了当代认知科学与人工智能的发展进程:从离身认知到具身认知、认知交互包括情境认知、认知发展以及动力系统等,梳理了从虚拟主持人到智能语音新闻播报、智能视音频新闻播报的发展进程。应该说,集合了离身认知、具身认知及相关交互在内的当前人工智能新闻主播的确取得了一定进展,基于数据库、算法及合成初步实现了人工智能新闻主播一定的离身认知,采用人类新闻主播身体屏幕形象、人格化命名并用熟悉的声音及形象引发受众想象等初步尝试了人工智能新闻主播一定的具身认知,也初步实现包括离身认知、具身认知在内的一定程度上的认知交互、人机交互。尽管如此,目前人工智能新闻主播的离身认知、具身认知、认知交互及人机交互还是初阶,其主体性、创造性、艺术性依旧有限,类似局限亦体现在初阶人工智能新闻传播的采集、生产、分发、接收、反馈中。人工智能新闻主播的局限事实上也反映了当前认知科学与人工智能的困境,由此激励认知科学与人工智能不断走向更加高阶,不断探索人工智能的高阶离身比如人工生命、进化计算等,不断探索人工智能的高阶具身,比如人工有机体、情感发生、人格发展等,不断探索高阶认知交互比如人工智能的主体性、创造性、艺术性等,亦不断探索高阶人工智能新闻传播的采集、生产、分发、接收、反馈等。同时,“亦此亦彼”不仅有益于各种不同研究进路之间的协调发展和认知交互,也有益于协调看待人类智慧与人工智能的关系,涉及舆论影响与意识形态、教育培养与社会认知、法规伦理与国际共识等,这些既是科学问题甚至有一定科幻色彩的问题,也是哲学问题,又是发展方略问题。在人工智能包括媒介不断进化、超乎想象的未来,正如哲学家冯象2019年4月20日在文汇讲坛第132期《谁害怕人工智能?》中所言,“机器必须理解人类美好生活的含义。换言之,我们必须教育机器”。人类孕育人工智能,亦有职责做好教育,相互学习。 李恒威,黄华新(2006)。“第二代认知科学”的认知观。《哲学研究》,(6),92-99。 李其维(2008)。“认知革命”与“第二代认知科学”刍议。《心理学报》,(12),1306-1327。 刘海龙(2018)。传播中的身体问题与传播研究的未来。《国际新闻界》,(2),37-46。 刘明洋,王鸿坤(2019)。从“身体媒介”到“类身体媒介”的媒介伦理变迁。《新闻记者》,(5),75-85。 刘婷,张卓(2018)。身体-媒介/技术:麦克卢汉思想被忽视的维度。《新闻与传播研究》,(5),46-68。 刘晓力(2002)。从丘奇-图灵论题到多奇原理。《自然辩证法研究》,逻辑专刊,86-97。 刘晓力(2003)。认知科学研究纲领的困境与走向。《中国社会科学》,(1),99-108。 刘晓力(2005)。交互隐喻与涉身哲学——认知科学新进路的哲学基础。《哲学研究》,(10),73-80。 梅洛-庞蒂(1945/2001)。《知觉现象学》(姜志辉译)。北京:商务印书馆。 普菲尔等(2007/2009)。《身体的智能:智能科学的新视角》(俞文伟等译)。北京:科学出版社。 孙玮(2018)。交流者的身体:传播与在场——意识主体、身体-主体、智能主体的演变。《国际新闻界》,(11),83-103。 特瑞·波素马特尔(1998/1999)。《沙地上的图案——计算机、复杂和生命》(陈禹等译)。南昌:江西教育出版社。 王浩(1997)。《哥德尔》(康宏逵译)。上海:上海译文出版社。 徐献军(2017)。论德雷福斯、现象学与人工智能。《哲学分析》,(12),4-16。 阎平凡,张长水(2002)。《人工神经网络与模拟进化计算》。北京:清华大学出版社。 叶浩生(2011)。身心二元论的困境与具身认知研究的兴起。《心理科学》,(4),999-1005。 殷乐(2016)。智能技术与媒体进化:国外实践探索思考。《新闻与写作》,(2),20-24。 章戈浩(2018)。数字功夫:格斗游戏的姿态现象学。《国际新闻界》,(5),27-39。 周昌乐(2000)。《无心的机器》。长沙:湖南科学技术出版社。 周逵(2018)。沉浸式传播中的身体经验:以虚拟现实游戏的玩家研究为例。《国际新闻界》,(5),6-26。 Apperley,T.H.&Jayemane,D.(2012).Game Studies’ Material Turn. Westminster Papers in Communication&Culture,9(1),5-25. Brooks,R.A.(1991).Intelligence without representation.Artificial Intelligence,1(47),80-81. Brooks,R.A.(1999).Cambrian Intelligence:The Early History of the New AI.Cambridge,MA:MIT Press. Clancey,W.J.(1997).Situated Cognition:On Human Knowledge and Computer Representations.London:Cambridge University Press. Dreyfus,Hubert(1972).What Computers Can’t Do:A Critique of Artificial Reason.New York:Harper&Row. Froesea,T.&Ziemkeb,T.(2011).Enactive Artificial Intelligence: Investigating the Systemic Organization of Life and Mind.Artificial Intelligence,(173),66-82. Lakoff,G.&Johnson,M(1999).Philosophy in the Flesh:The Embodied Mind and Its Challenge to Western Thought.New York:Basic Books. Merleau-Ponty,Maurice(2012).Phenomenology of Perception.New York:Routledge. Pfeifer,Rolf&Scheier,Christian (1999).Understanding Intelligence. Cambridge,MA:MIT Press. Thelen,E.,Schner,G.,Scheier,C.,&Smith,L.B.(2001).The dynamics of embodiment:A field theory of infant perseverative reaching. Behavioral and brain sciences,24(1),1-34. Winograd,Terry(2006).Shifting Viewpoints:Artificial Intelligence and Human-Computer Interaction.Artificial Intelligence, 170(18) ,1257. 本文刊载于《国际新闻界》2020年05期 编辑︱安雯 原文章作者:符号与传媒,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 杆括 3 天前
    1350 0
  • 别克全新GL8一体化智能座舱体验:「交互」到底意味着什么?
    在早前我们对别克新一代GL8家族的体验中提到过——它不仅维持着王者级的乘坐舒适性,同时也变成了一款对驾驶员更为友好的MPV,这种「友好度」不单单体现在动态驾驶层面,还在于前排座舱智能化程度的飞跃和一系列全新科技的配备。 能有这样的进步,很大程度上源于全新别克GL8家族率先搭载的别克eConnect 3.0互联技术。从底层技术上来讲,新一代别克GL8在系统中使用了业界领先的Hypervisor系统架构,这套技术可通过在系统硬件上创建多个虚拟机,完成不同操作系统(安卓系统/Linux系统)的运行,将硬件资源实现更充分的利用,使得数据传输更快、程序应用更多,令系统及架构运转更为高效。 正因为引入了Hypervisor技术,车辆的娱乐和安全及功能实现了分层,比如娱乐功能可以在安卓系统上运行,而涉及到安全的功能则会放入到Linux系统中运行,而且可以设定不同的安全等级及权限,进而为用户带来安全且多样化的服务及体验。 此外,基于对消费者需求及车联网趋势的洞察,上汽通用汽车还采用了私有云与公有云的混合模式,其中车辆相关数据被置于私有云上,同时开放接口,让车主无缝连接各种互联网服务,兼顾安全与开放。 至于用户感知层面,评价一款车的座舱智能化水平是不是足够高,消费者通常都是从硬件配置、功能实用性和交互便利性几个维度来进行判断。 首先是硬件层面,作为信息显示的主力载体,车内屏幕的大小和数量都是消费者极其在意的点,而多屏联动目前已成为了上至豪华品牌下至本土车企都在强调的主流交互形式,全新 GL8(参数|图片)自然也不例外,它通过12.3寸全液晶仪表及中控联屏、14.6寸的HUD风挡式全彩平视显示屏,再配合高清流媒体后视镜、智能手机等硬件,最终打造出了一个多屏互联以及多维交互的一体化智能座舱。 多块屏幕的加入,意味着用户在用车过程中,几乎所有信息都能够即时呈现在面前。而且三块主要的屏幕之间的联动与交互在信息层级方面也相当合乎逻辑,比如HUD显示的是最为必要的驾驶信息,仪表盘则负责显示车辆、导航与驾驶信息,中控屏则承担着子菜单等复杂的信息显示和车辆设置的任务。 全液晶仪表盘注重车辆与驾驶层面的信息显示 中控屏负责复杂功能的显示与操作 HUD可配合用户驾驶习惯提供经典模式、指南针模式及极简模式 值得一提的是GL8的中控大屏在操作逻辑和显示方面有许多巧思,首先它在操作方式上很倾向于手机,比如支持多点触控,用户可以任意拖动APP到自己习惯的位置;而导航作为大多数用户在车内的第一位需求,被设定为一个实时显示的状态,在进行其他功能的操作时,驾驶者也可以保持对自身所处方位的明确。 整个UI界面还沿用了eConnect 2.0系统创新的的卡片式页面,但在设计上更为扁平化,加入动态效果后也变得更为高级美观。 除此以外,中控屏左侧提供了快捷键预设功能,用户可将高德实时导航系统、高清360°全景泊车影像等常用功能预设至快捷栏,并可通过向右滑动中控屏快速调取出快捷按键,也可通过下拉操作,查看消息通知栏。总而言之,诸多功能的实现在操作逻辑上都尽可能靠拢「一次到位」的结果,而不需要用户在多层级的子菜单中去费心寻找对应的功能。 当然,OTA远程升级和语音控制系统等传统亮点在别克eConnect 3.0互联技术中依然保留,新的3.0系统支持9大核心控制模块OTA远程升级,包括车载娱乐、安吉星模块、智能驾驶控制模块、车身控制模块、博世iBooster电控制动助力器等,并支持分区进行,确保高效运转;车载语音系统的功能控制架构也进行了全面优化,实现语音控制的高程度融合,智能语音识别能力也得到了进一步提升。 最后一个现实场景是:不少年轻用户会跳过原生车载系统,转而更习惯于使用CarPlay/CarLife手机映射,这样做当然没有问题,但也存在着痛点。 以高速行车为例,全国多地的高速公路都支持手机扫码支付过路费,遇到此类场景时,用户需要拔掉数据线进行付款操作,但此时车辆与手机的互联也随之断开,需要接回数据线才能重回场景,用户的这一插一拔,在体验上其实很尴尬。虽然市面上已经开始有一些车型支持无线CarPlay(如别克 君威GS(参数|图片)),但毕竟只是少数。 如果真的是手机APP的重度使用者,车主如何实现手机与车机之间的数据互通呢?此时就是Super ID超级个人账号出场的时间,通过添加第三方账号关联功能,车主的个性化车辆设置以及各类车载APP的个人收藏,都能实现同步云端保存,诸如云音乐、云电台等多媒体娱乐应用也可实现手机和车机的账号关联。 小结: 车联网技术一直以来被上汽通用视为提升车辆的体验的「第二引擎」,将最新的车联网技术与车机放在全新一代GL8上也自有深意。智能与网联技术的迭代升级,归根结底都是致力于让车辆内部不再是一个与外界割裂的场景,而是与之无缝融合,让用户处于一种「随时在线」的状态。而用GL8这样一个有着舒适内部空间的车型作为eConnect 3.0互联技术的首秀再合适不过了,在展示车型实力的同时,随着交互体验的大幅提升,也为GL8的潜在客户们又提供了一个额外的下单理由。 撰文|袁梦泉 图片|买车问问 编辑|白术 审校|兰青青 原文章作者:买车问问,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 晖迢浪 3 天前
    2718 0
  • 智慧助手小艺·智能交互中枢全场景泛终端无缝连接让“智慧变大”
    智慧助手小艺·智能交互中枢全场景泛终端无缝连接让“智慧变大”,全面覆盖家庭、生活、工作、娱乐、出行等等不同的场景,为消费者带来全场景化的智慧生活体验。 1、远程语音家居控制 智能家居给人们带来了安全便捷的生活,也让人们的控制习惯逐渐发生改变。华为“智慧助手”的语音技术发展为智能家居控制入口做了一个补充,在抛去了传统遥控器和手机APP之后,通过语音指令就能控制一切家居家电,让家居环境达到舒适状态,为控制增添新方式,让生活更便捷智能。视频语音声控无处不在,智能家居领导者华为“智慧助手”小艺为智能家居提供了新的控制入口。 华为周边智慧产品众多,智慧生活各种各样的设备让你眼花缭乱,华为“智慧助手”小艺通通能帮你做到,想打开什么就打开什么,你只需要吩咐“小艺”即可。 2、AI滚屏翻译 AI滚屏翻译,双指按压或对小艺说翻译屏幕,然后翻译这文章这点事儿就交给AI滚屏翻译吧。AI滚屏翻译支持十种语言互译,一机在手玩转世界。 3、智能回看 智慧屏智能检测,离开时的精彩,回来接的上,观影时,如你暂时离开,智慧屏将自动记录观影进度,在你返回时发出提醒,从记录进度处继续播放,喜爱的影片不耽误。 4、AI隔空手势 智慧屏的AI隔空手势功能,当你的食指放在嘴上做出嘘的姿势时,智慧屏的摄像头就会智能检测到并静音,当你的手伸出五指,超过两秒钟之后视频就会暂停。同样的你也可以进行快进和调节音量的手势操作。这神奇的功能能够实现都源于智慧屏内置的手势神经网络模型,有了这个模型智慧屏的摄像头识别手势就变得游刃有余了。 5、车载语音操控-HUAWEI Hicar 华为Hicar,可以支持车载语音操控、前向防碰撞预警、手机车钥匙等功能,通过车内摄像头等传感器,可以检测到驾驶员的心率以及驾驶状态。在支持Hi-Car的汽车上连接华为手机,你可以用语音操控播放歌曲,进行导航和打电话等操作。 原文章作者:智慧助手小艺,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 茸舔 4 天前
    2191 0
  • 不止有语音识别,小爱同学盘点2019创新技术
    集微网1月19日消息(文/数码控),近日小米旗下小爱同学官方微博盘点了2019创新技术,一起来看看吧! 1.就近唤醒 2018年4月,小米基于分布式拾音技术的就近唤醒功能在国内智能音箱行业进行首发,领先其他品牌一年时间。目前为止,就近唤醒功能已在小爱音箱、小米电视、IoT设备三个品类的10余款产品上线。 2.立体声全屋播放 立体声全屋播放,即2台音箱组成立体声,支持多房间音乐播放、全屋同时播放的功能。2019年9月20日,小米基于分布式放音技术的组合立体声功能在小米小爱音箱Pro正式发布。 3.麦克风阵列技术 2019年,小米声学与语音团队联合推出了自主研发的阵列唤醒算法,并于2月20日上线小米AI音箱,有效提升噪声场景平均唤醒率及回声场景平均唤醒率。9月20日发布的小爱音箱Pro及小爱音箱全量采用六麦自主研发的阵列唤醒算法,成为小米首款落地的全自主研发的智能音箱。 4.产线测试支持 依托于小米声学测试实验室自主研发的声学硬件测试平台,部分测试算法在产线测试上应用,相较于第三方的大部分算法依赖外部计算仪器的测试系统,自主研发产线算法直接运行在待测设备上,提高了测试效率,追踪效果更好,问题修正改进速度也更快。 5.声学认证系统 小米首创的智能家居远场声学实验室,分别从不同说话人、不同声学场景等维度,全面评测智能产品的语音交互功能,保障用户拥有更加流畅智能的使用体验。日前,小米的声学认证标准被中国人工智能产业发展联盟正式采纳,小米公司还与该联盟及中国信息通信研究院联合成立人工智能声学实验室。 6.语音唤醒与语音识别 小米语音团队自主研发“多通道端到端语音识别技术”,显著提高唤醒率和识别率,在远场环境下,唤醒更灵敏,识别率更高,比“传统多通道阵列增强模块加单通道语音技术”拥有更好的使用体验。 7.AI角色多样化 一直以来,小爱同学给人的印象都是一个甜美可爱的小姐姐,但这并不能满足所有用户对小爱同学角色的期望。因此,在2019年9月份推出了男生声音,一个阳光活泼的小哥哥角色。小爱同学爆料称,在不久后还会推出包括儿童声音在内的更多声音。 此外,还有复杂自然对话、主动交互、声纹识别等创新技术,由于篇幅有限,在此不再多说。 (校对/叶子) 原文章作者:爱集微APP,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 晋碧安 4 天前
    2926 0
  • 在可穿戴设备上跑随时唤醒的语音助手,说的容易,跑的动吗?
    这个问题,将在 7 月 21 日杭州国芯的新品线上直播间里,向您解答。 到 2023 年, 全球可穿戴市场规模将超过 300 亿美元 。 相较于当前手机的存量市场,可穿戴设备未来市场空间可能更加庞大,而智能化则是其重要的发展方向,如何与手机进行更好的联动、如何在特定场景独立运作、如何能更自然的语音交互,均在各大巨头的布局之中。 苹果从 二代 AirPods 开始,就启用了全新的 H1 芯片,并为耳机增加了随时唤醒的语音助手的功能。 只需一句「Hey Siri,我的耳机还剩多少电量 / 将音量调到 50% / 打电话给妈妈……」,便可联动 iPhone 上的 Siri,实现对音乐播放和手机其他应用的控制。这样的操作对我们骑行或者双手搬重物的时候特别友好。戴在耳上的 AirPods 更像一个贴身助理,承包了日常出行,更接近《钢铁侠》里的 J.A.V.I.S。 而归功于 H1 芯片,AirPods 可以更智能的管理电池功耗,改善电池寿命。新款 AirPods 总体续航保持了在与上代一致水平:耳机续航时长 5 小时,配备充电盒一共 24 小时。 踩着苹果 AirPods 的脚印,小米也在随后推出了 小米真无线蓝牙耳机 Air 2 ,较一代有了较大的升级。 Air 2 的另一项重要的交互更新是支持小爱同学的热唤醒。用户在无需手动触碰耳机、手机的情况下可语音唤醒小爱同学,进行切歌、设闹钟、查天气路线、听故事、智能家居控制等操作。 同时还支持语音热词功能,在无需触控、唤醒词情况下,通过「上一首(曲)/ 下一首(曲)」的语音指令进行操控。设备目前支持的热词有限,官方表示后续将会通过固件升级的方式添加,比如音量增 / 减等高频、固定的操作词汇。 但用户的反馈表面,在 TWS 耳机等可穿戴设备上,运行随时唤醒(Always On)的语音助手,并不简单。设备 AON 开启后带来的设备发烫、功耗上升、续航下降,以及听不清、唤不醒的问题,让一些语音助手成为鸡肋。 增加功能、优化体验,就意味着更多成本、更大功耗,这将成为限制智能可穿戴产品发展的瓶颈吗?杭州国芯要说,不! 7 月 21 日,杭州国芯将针对可穿戴设备市场,发布一款超低功耗 AI 芯片,将会为行业带来质的改变。 ∕ 活动看点 ∕ 亮点一:智能穿戴新革命,从「芯」起航! 此次发布的芯片,主要针对智能穿戴市场,无论 TWS 耳机,还是智能手表、智能眼镜,只需一颗小小的 AI 芯片,便可轻松完成智慧升级。 亮点二:超低功耗语音唤醒,长效待机随叫随到! 智能穿戴产品,通常需要随身携带,对功耗的要求极高。如果功耗太大,很大程度上会影响用户的产品体验。国芯通过多年的积累和经验,结合最新技术突破,终于研发出颠覆性的超低功耗唤醒芯片。 到底有多低呢?发布会告诉你! 亮点三:一站式服务,AI 赋能随时随地 在 AI 应用初期的智能穿戴领域,产品落地通常需要较长的周期。国芯针对 TWS 耳机、智能手表、智能眼镜等产品,准备了多个成熟的「算法-软件-硬件」一站式解决方案,降低 AI 入局门槛,快速落地,助力企业抢占市场先机。 究竟是什么样的解决方案呢?发布会为你揭秘! ∕ 活动安排 ∕ 14: 00~14: 05 开场视频 14: 05~14: 25 人-车-家 AI 全场景战略发布 (国芯 CEO 黄智杰) 14:25~14:45 AI 新品发布与技术解析 (国芯 AI 事业部总经理 凌云) 14:45~15:10 产品应用方案与商务策略公布 (国芯 AI 事业部副总经理 陈沪东) 15:10 互动问答 & 抽奖环节 ∕ 活动报名 ∕ 报名通道 长按扫码进入 或点击文末「阅读原文」进入报名页面 预先预约,报名成功后 将以短信形式通知直播地址 ∕ 关于杭州国芯 ∕ 杭州国芯科技,国内领先的 AI 芯片设计公司,早在 2017 年推出了第一代 AI 芯片 GX8010,针对人工智能的各种场景专门开发了神经网络处理器(NPU),并采用了多核异构的技术,将 NPU、DSP、CPU 等多核处理器全部集成在一颗芯片上,具有强大的计算性能、又兼具低成本和低功耗的特点。 延伸阅读 从神经网络加速、NPU 工具链、SoC 集成等多个角度,深度剖析一款 AI 芯片诞生背后的基本过程和逻辑。国芯凌云 @ WARE 新硬件峰会 演讲实录 后「百箱大战」时代的 AI 芯之路, 国芯详解自研 AI 芯片的故事 真知灼见的科技记者 四通八达的运营编辑 原文章作者:深圳湾,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 柞枫 4 天前
    1547 0
  • 搭载新交互系统 2020款帕萨特上市售:18.59万元-28.29万元
    [资讯-牛车网] 受疫情影响,上汽大众2020款帕萨特与全新人机交互系统同步线上发布上市。新车共推出8款车型,建议零售价从18.59万元-28.29万元。八款新车在满足国六排放标准并优化配置的同时,搭载上汽大众智慧车联系统,同时也是上汽大众目前首款使用全新智慧车联人机交互系统的车型。 2020款 帕萨特(参数|图片)售价: 280TSI商务版 185,900元 280TSI精英版 206,900元 330TSI精英版 217,900元 330TSI豪华版 237,900元 330TSI尊贵版 252,900元 380TSI豪华版 247,900元 380TSI尊贵版 262,900元 380TSI旗舰版 282,900元 全新一代帕萨特外观走的是沉稳路线,大众家族式设计深度植入,无论是前脸还是侧面腰线以及车尾部设计就像是给MQB平台的外壳穿上了一套西服,基本上拒绝了大部分年轻消费者,而真正喜欢这样外观的人群应该只有两个,一个就是纯营运的车主,还有一种就是纯坐在后排的乘客。 车机系统得到升级: 智慧车联系统通过上汽大众超级APP,集成互联网优质资源,引入丰富多彩的在线服务,涵盖智联控车、智能语音、智慧导航、智享娱乐、智趣出行等核心服务功能。智能语音实现车内人机多轮语音交互,解放车主双手使驾驶更安全便捷;智能导航、在线音乐等功能让通勤与出行充满乐趣;远程开关锁、智能家居等功能让回家更安心。 2020款全新帕萨特在安全、科技配置上进行优化,全系标配前后排头部安全气帘,商务版与精英版搭载8英寸车载智能娱乐交互系统,其中280TSI 精英版以上车型搭载全触控空调面板,330TSI 精英版以上车型升级搭载触敏式前排照明灯。 豪华版以上车型配备9.2英寸高级智能多媒体娱乐交互系统、手机无线充电功能等。 写在最后: 全新一代帕萨特是一台相当平常的车,它的性格更适合对车只是有代步或营运需求的车主,对于他们来说帕萨特绝对是一个相对可靠的好“伙伴”。当然,相比起更年轻的消费者,帕萨特就显得有些老成,缺少激情,至少我目前肯定不会将它列入我的选车名单,但我却会将它毫不犹豫的介绍给家里的长者,或许这就是帕萨特车型一直以来的那种特殊的魅力吧。 目前购买2020款全新帕萨特享有4成首付3年0利率优惠,或5000元保险补贴,同时也可免费享受3年6次基础保养政策。老车置换还可补贴8000元优惠。 (文:desperado 图:上汽大众) 原文章作者:牛车网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 应云亭 4 天前
    1059 0
  • 交互设计—超越人机交互(第5版)
    本书由交互设计界的三位顶尖学者联袂撰写,是该领域的经典著作,被全球各地的大学选作教材。新版本继承了本书一贯的跨学科特色,并与时俱进地新增了一章讨论大规模数据,同时补充了新的发展成果。书中包含大量实例,涉及敏捷用户体验、社交媒体与情感交互、混合现实与脑机界面等。全书紧紧围绕设计与评估的迭代过程,不仅包含了传统的理论知识、实例解析、实践指导等内容,还通过“窘境”模块讨论了一系列启迪思考的开放问题。此外,本书网站www.id-book.com也为读者提供了丰富的资源,包括教学PPT以及大量的案例研究。比第四版好多了…… 本质上讲,人机交互就是价值与事实的双向对流,机侧重事实,人讲究价值;超越人机交互就是事实与价值的融合,也是存在与当为的汇通,更是being与should的实现。 人机交互与超越人机交互都是为了人类! 交互的最高境界是超越感觉,不只是它给你,而是你给它,就像听好的音乐、欣赏好的摄影作品或指控一场酣畅淋漓的博弈对抗一样,相互之间的变化、赋予、激发、唤醒是实时的,而绝不是像程序员依据规则、条例、条件、前提预估、制定、编程、绘制出来的那样,虽然整个过程中肯定有固定程序化的部分,但那也是变化中的不变,如何处理这些变与不变,是人机融合智能认知研究的主要内容和任务。 2020年7月,<<交互设计:超越人机交互>>正式与您见面!不见不散!欢迎不吝指正! 斯坦福大学商学院教授贝南·塔布里兹和迈克尔·特雷尔的研究表明:“如果一个鸡蛋的蛋壳从外面裂开来,它的生命就结束了。但是,如果一个鸡蛋的蛋壳从内部裂开来,则意味着新的生命破壳而出。伟大的事物都是由内而外产生的。” 谢谢托娅!张霖峰!苌凯旋!辛益博的努力! 原文章作者:人机与认知实验室,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 值蓊 4 天前
    3548 0
  • 比亚迪DiLink 3.0智能语音全新功能曝光,快来看看吧!
    为加深人车交互,提升用户驾驶体验,比亚迪DiLink 3.0系统深入挖掘用户用车需求,推出了搭载行业首创童声识别功能的全新智能语音系统,能快速识别儿童语音并作出响应。同时在新版智能语音系统中还增加“声源定位”和“个性化智能推送”功能,满足用户的多样化需求。 听你所言,“童”样精彩 知你所在,服务精准 懂你所需,给你“好看” 据悉DiLink 3.0系统将搭载于比亚迪最新车型汉身上,焕新升级后的DiLink 3.0系统将不断挖掘用户在不同场景下所需要的服务内容,通过智能语音系统的强大功能,满足用户边开车边操作的行车需求,为用户提供更智能化的出行体验。

    原文章作者:志行车事,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 龙情韵 4 天前
    3294 10
  • 科技宝藏 | 微软听听文档,AI语音全线升级!
    真香!这篇深度科技干货码住一定不后悔! 微软听听文档的AI语音,终于全线升级了! 提问!! 超级逼真的文字转语音,你见过吗? 只需一部手机保持网络连接,打开 微软听听文档小程序,就可以让你输入的文字自己开口说话了。生成好的有声文档还可以在微信中分享、转发。 没错!这就是本次升级的主角 - 微软听听文档的AI读稿功能。微软听听文档是微软Office开发的一个微信小程序,它不仅可以用AI语音来朗读公众号文章,还可以为多种类型的文件——如PPT、图片等,添加配音。 估计你没猜到,听听文档更是为 教育教学打造的小程序。它的设计之初,是探索如何方便人们在 移动端将信息进行展示,借助AI技术帮助用户更加高效、高质地完成微课教学、在线培训以及产品推广类的分享。 会发声的文档也可以给予观看者身临其境的体验,实现制作者与聆听者之间最有效的沟通。 这次听听文档的升级可谓非常全面。首先,提供了更多的智能声音选择,千呼万唤的 高质量男声“云扬”也终于和大家见面啦!此外, AI智能语音朗读的音质与自然度也大幅提升,不仅拥有了更强的表现力,在合成语音细节的处理上也更“严丝合缝”。即使面对中英文混合场景,听听文档也能给予阅读者流畅、自然的听觉享受。话不多说,直接听demo! 经过这波 真实对比,估计大家一定非常好奇,如此逼真的人工智能语音到底是怎么 实现的?那么,想要一波科技精进的朋友,就继续往下看吧! 保证干货! “云扬”和他背后的语音技术 语音合成(Text-to-Speech,TTS),是通过计算机将输入的任意文本转换成相应语音的技术,在人机交互中扮演着类似于人类嘴巴的角色,是创建自然、高效的人机交互中不可或缺的部分。语音合成技术是最前沿的人工智能技术,同时也是微软深耕多年的研究领域。 通过语音合成技术,我们可以创造出不同风格的AI语音,而一个优秀的AI语音,则需要 发音清晰、韵律自然,与人声贴合,让听者感觉亲切。然而,这个目标,却不是那么容易就能达成的。 以中文为例,阻碍AI语音接近自然语音的因素就很多!在朗读中,AI需要分辨文本中不同的韵律结构,产生相应的语调、节奏、轻重音,甚至还得考虑很多我们自己都经常分不清的 多音字! 除此之外,AI语音还需要在朗读中富有感情,不能读错,更不能发出奇怪的噪音,想一想我们养一只会说话的鹦鹉时有多么辛苦,你就知道培养一个完美的AI语音需要付出多少努力了!这还没完,AI语音还得学会“ 分身术”,能够在同一时间处理很多很多的人机交互任务,能否做到“多快好”就成了判断一个AI语音是否优秀的准则。 本次升级闪亮登场的 男声“云扬”无疑是符合这个准则的。云扬在开发中采用了最新的迁移学习技术,仅利用少量录音数据便可训练出具有高质量、高自然度语音生成能力的模型。 而这,离不开 微软在语音合成领域多年的积累:我们使用了大量高质量多说话人的语音数据,构建出具有自适应能力的源模型。该源模型具有稳定性高、适应能力强等特点。 基于这个源模型,我们只需少量的目标数据,便可得到一个能用于实际生产环境的新说话人模型。“云扬”就是通过这个新技术得到的模型。在训练中,我们仅使用了一千句的录音语料,这么一位中英文双全的AI语音就崭新出炉了! 语音合成自然度通常用MOS打分进行评价。参与评测的人员对语音整体质量进行打分,分值范围为1-5分,分数越大表示语音质量最好。针对新声音模型,我们进行了大规模的MOS测试,并且和市面上的竞品进行了对比。 通过这次语音更新中,我们不仅让AI语音们说得更“好”,还让他们说得更“准”,对中文里公认的 多音字和停顿技术难题也进行了算法升级。 ▲ 向上滑动 1. 发音改进 如何准确地读多音字是中文高质量TTS的一大挑战。在汉语常用字表中,2500个常用字有近400个多音字。 在传统的方法中,TTS难以区分同一个多音字在不同句子中的区别。而在新的神经网络模型中,我们使用了基于深度神经网络的多音字模型,让模型可以在理解全句句意的情况下,预测出正确的读音,大大降低错误率。 此外,我们还对时事热点中的多音字和日常人们习惯读错的多音字做了针对性的改进。 比如:上海推进经济发展各项工作,尽可能降低新冠疫情的影响。 该句中有两处多音字:“尽”和“冠”,都是人们很容易读错的多音字。根据《国语辞典》,“尽(可能)”的正确读音是jìn;“新冠”是“新型冠状”的简称,“冠”读作guān。我们利用深度学习网络可以充分学习海量数据的优点,实时更新模型,提高读音准确率。 我们和市场上主流的中文TTS进行了读音准确率比较。结果表明微软中文TTS在发音准确度上有显著优势。 2. 停顿改进 停顿是一门技巧,它不单单是人们朗读换气的需要,更是表现句子结构关系、表情达意的需要。正确恰当的停顿对听众准确清楚地接受信息起着十分重要的作用。 机器不会累,不需要换气就可以将文字读出来,但“一口气”读出成千上万个字,则会使得听众无暇思考,信息丢失,难以理解句子含义。反之,如果乱停顿,又会失去原有句子的节奏,打乱结构关系,甚至改变原有的含义。 为此,我们使用了基于深度神经网络的韵律模型,结合上下文关系,更加精准地预测停顿位置,让TTS更加准确自然地朗读。 此外,停顿的时长也十分考究。在句子中,并非所有的停顿都是一样长的。段与段,句与句,词与词,字与字,每一处的停顿时长,各不相同。为此,我们在深度神经网络的韵律模型中,为停顿的时长精心设计,以确保各处的停顿恰到好处。 语音合成技术延伸阅读 在过去,为了实现优秀拟人的AI语音,科学家们尝试过各种技术,从模拟人类声道发音到现在的神经网络建模技术。可应用于实际场景的 语音合成技术大概分成了三个阶段。对技术感兴趣的同学可以简单学习一波,保证干货!不感兴趣的直接跳到下面吧! ▲ 向上滑动 1.基于波形拼接的合成方法 在传统语音合成技术中,波形拼接合成方法无疑占有着重要的地位。其基本原理就是根据输入文本的信息,从人工录制与标注的语料库中挑选合适的基元(通常为音素或音节),进行少量的调整,然后采用波形拼接的方式得到与待合成文本相对应的语音序列。在单元选择的过程中,如何建立完善的决策树是波形拼接合成方法中的重点。 在实际应用中,采用例如高斯混合模型(Gaussian Mixture Model,GMM)等方法来监督基元选取的预测过程,并采用得到的韵律预测模型来代替原始语音合成系统中的反馈模型,构建更加具有自然度的语音合成系统。直到今天,波形拼接方法凭借着其显著的稳定性和较低的计算复杂度,依然被大量应用在各种边缘计算的场景中。然而,波形拼接合成方法需要准备海量的高质量语料,同时,该方法也不具备扩展性,不能面向需求适应到不同的应用场景。 2. 基于HMM的参数化合成方法 为了提升合成语音自然度、降低语音生成对语料库的依赖度,并增加语音合成系统的可扩展性,研究者们又提出了参数化的合成方法(Statistical Parameter Speech Synthesis,SPSS)。其中,采用隐式马尔可夫模型(HiddenMarkov Model,HMM)实现的参数合成系统,在同等数据规模下,能够产生相比拼接合成方法自然度更好的合成语音。 此外,通过利用参数化合成的特性,基于HMM的语音合成方法也初步实现了表现力语音合成的效果,能够较好地处理重音合成、疑问句合成等一系列问题,初步实现了语音合成中的“稳中有变”,使合成语音具备了与语料库语音不同的发音特质。然而,基于HMM的方法还存在着很大的局限性,比如在字边界处会存在明显的拼接痕迹,使其合成语音与自然语音有着很大的差异,不能满足人们对自然语音合成的期望。 3. 基于深度神经网络的方法 在参数化语音合成的基础上,随着机器学习技术的不断成熟,基于深度神经网络的建模方法也逐渐被语音合成领域的研究者所采用。研究者首先尝试了使用深度置信网络(Deep Belief Network, DBN)作为声学模型的方法,以增强声学参数预测的性能,并取得了相比HMM方法更好的效果。同时,考虑到从语音信号中提取得到的声学参数序列具有很强的上下文依赖关系,递归神经网络及其长短时记忆增强的变种LSTM网络也被应用于建立声学模型的研究中,并取得了显著的效果。不仅如此,神经网络建模的方法还逐步被应用到文本分析,韵律预测,声码器(Vocoder)等一系列语音合成的模块中,并最终提出了以Tacotron为代表的端到端(End-to-end, E2E)的语音合成技术,实现了合成语音在音质与自然度上的飞速提升,接近了人类的发声水平。 微软也是首先开展基于深度神经网络的语音合成技术开发的公司之一。经过多年的技术积累,微软的研发团队于2018年提出了基于Transformer的端到端语音合成技术,于2019年提出了基于知识蒸馏(Knowledge Distillation)体系的FastSpeech技术,将合成语音的音质与自然度提升到与人类接近的水平。同时,与传统端到端语音合成技术相比,将自然语音合成的速度提升了近百倍,首次实现了AI语音与人类发音人一致的“好”,远超人类发音人的“快”!在此基础之上,微软现有的TTS技术可以全面支持多说话人,多风格,多语言统一建模,提供了强大的定制化能力。 依托于Azure云的强大计算能力,微软语音合成实现了产品级的高稳定性、高并发和低延时,让你可以在全球各地即时高效地调用高质量声音。通过Azure认知服务平台,微软语音团队将业界顶尖、持续改进的神经网络语音合成技术广泛应用到操作系统、办公应用、个人助手、呼叫中心、客户服务、智能设备、车载系统、社交游戏等产品中。 微软智能语音支持全球 近50种语言,覆盖各大洲的国家和地区。其中,最新的端到端神经网络语音合成技术已支持5种语言(英文、中文、德语、葡萄牙语、意大利语),为教育教学和出海业务提供坚实的技术支持。 微软智能语音还支持 不同说话风格。针对不同应用场景和上下文内容,你还可以让同一个声音切换不同的表达方式,譬如新闻播报、客户服务、聊天会话、培训演讲等多种语音风格,创造更多变、更自然的语音内容。 如果你还希望创造独一无二的智能语音,微软还提供了个性化的 语音定制服务,让AI语音更加契合产品品牌和应用场景。 针对有声书等长文本语音合成场景,微软还提供完整的 有声内容创作服务,支持丰富的音色选择和灵活的声音编辑,包括多种情绪的转换、发音和韵律的调配等。解决了人工有声内容创作周期长、费用高以及传统TTS合成声音机械、音色趋同和情感单一等问题,让有声内容创作更简单,让声音体验更动人。 经过这波真实对比和 Office 君的悉心科普,你是否已经跃跃欲试,尝试一波 最新版的AI语音啦?赶紧打开微信小程序,让你的文字开口说话吧! 还不清楚如何使用微软听听文档的AI读稿功能? 别急,这就告诉你怎么玩! 方法 1: 将文字输入到PPT备注页中,使用PPT制作听听文档。备注页内容会自动出现在听听文档里面。 方法 2: 将素材上传至听听文档后,选择AI读稿,在“添加文稿”中输入文字,即可转化语音。 三种案例,供你参考: 01 停课不停学,停工不停产 02 新闻播报,清晰准确 AI语音为您播报China Daily新闻 03 英语课堂,口音纯正 ▲ ▲ 原文章作者:微软中国MSDN,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 箴蔽盒 4 天前
    3595 0
  • 小米小爱鼠标 内置“小爱同学”化身语音遥控器
    小米小爱鼠标是一款非常“与众不同”的鼠标,里面“住着”小爱同学。众所周知,“小爱同学”是小米公司旗下推出的人工智能,可以做到语音交互。有了“小爱同学”,该鼠标能有怎样的表现呢?让我们看看它的个性。 小米小爱鼠标 由于内置“小爱同学”,小米小爱鼠标能够在语音方面做到别的鼠标做不了的事情。其支持语音输入文字,不仅如此,还能语音、划词翻译,彻底解放双手。除此之外,用户还能通过小米小爱鼠标使用语音指令打开相应的软件、调节电脑音量、询问天气新闻等。通过小米小爱鼠标,用户日常使用电脑的大部分操作都可以通过语音来实现,非常便利。 小米小爱鼠标 除了用语音操控电脑进行一些操作,小米小爱鼠标还可以通过小爱同学操控别的智能产品,比如用户在日常使用电脑时,只需要对小爱同学说打开空气净化器,就可以将空气净化器打开,不需要亲自操作。 小米小爱鼠标在设计上采用了抗菌壳体材料,抗菌率高达99.9%。除此之外,该鼠标拥有蓝牙、USB接收器双模式,可以在两台电脑之间切换。同时,该鼠标支持按键功能自定义,用户可以自定义快捷键操作。 原文章作者:宅秘,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 私凋 4 天前
    1003 0
  • 智能语音“双巨头”阻击新冠肺炎战疫,在哪些领域大有作为?
    作者:靠谱的阿星 最近关于新冠肺炎疫情何时解除?是否会严重打击经济?类似讨论多了起来,我个人的看法是,这场疫情尽管让一些社会生产暂停但是绝不是生产力的被破坏,也毫无任何重建成本,一旦疫情解除甚至相应的生产和消费水平会出现井喷式增长,再加上我们更应该看到互联网经济、人工智能技术在打赢这场战役有了应用升级,国民卫生习惯以及社会公共卫生应急反应机制提升,在工作层面全面加强远程办公、数字化与智能化比例增加,这些硬实力对当前打赢新冠肺炎战疫过程中得到巩固。 我对人工智能(AI)技术的理解是从智能语音识别与产品应用开始的,实际上大众消费者率先接触到到的最具AI特色的成熟产品也是智能音箱、智能录音笔、智能手机中的智能语音助手等等。智能语音技术包括语音识别、语义理解、自然语言处理、语音交互等,可以说,智能语音是人工智能技术的基础。随着人工智能第三次发展浪潮的来临,智能语音的应用也在加速多场景落地,驱动着新一轮的产业变革。 鉴于智能语音技术在这场防控新冠肺炎中的实践是厚积薄发的成果应用,本篇文章,阿星想跟大家的聊聊人工智能领域的两家头部企业科大讯飞和百度如何依托自身的智能语音技术以及解决方案来积极参与肺炎疫情防控工作的。 01 智能语音技术大有作为,防疫抗疫在3个方面发力? 《国家卫生健康委办公厅关于加强基层医疗卫生机构新型冠状病毒感染的肺炎疫情防控工作的通知》指出,基层医疗卫生机构要“充分运用信息技术手段”进行疫情防控,可通过电话、智能语音提醒等手段,向辖区居民精准、及时推送疫情防控和健康教育信息。 除捐款捐物为疫情高发地区提供N95口罩、防护服、护目镜等紧缺医疗物资之外,智能语音技术主要从智能排查、AI辅助诊疗、在线课堂方面防疫抗疫,充分展现了人工智能的优势。 (1)智能排查 由于新型冠状病毒在潜伏期就具有一定的传染性,快速排查、摸清城市基层社区以及乡村的人员流动情况和健康情况,是防止疫情蔓延的重要举措。当前疫情防控重点放在了人口密集的中心大城市,却容易忽视那些从中心城市尤其是武汉返乡的农村,这对于基层医疗卫生机构、居委会等组织快速完成居民健康排查和疑似案例收集和上报工作带来了巨大的工作压力。 有鉴于此,科大讯飞决定从1月25日至疫情结束,面向启动一级响应的省市地区推出“智能的语音外呼助手”免费协助面向新冠肺炎重点人群的筛查、防控和宣教,可提升效率5倍以上,以减轻基层医务工作者的随访负担,其中外呼对象主要面向来自或途径武汉的重点人群,以及已有发热等症状的人群,还包括与前两大人群密切接触的人群。 点击接听AI电话 来自靠谱的阿星 00:0001:03 据了解,在安徽、北京、浙江、吉林、湖北等22个省市地区各级卫健委、基层医生充分利用科大讯飞的“智能外呼系统”给居民打电话、发短信,通知与新冠肺炎相关的防控知识及对重点人群进行随访。自1月21日-2月7日期间,讯飞能外呼系统给居民打电话、发短信,通知与冠状病毒相关的内容相关的电话360万人次,短信722万人次,累计服务1082万人次,针对重点人群电话随访75万人次。提高医务人员通知和随访工作效率的同时,降低医务人员上门沟通的风险。 相信在上述区域的朋友,如果您在春运期间经过武汉站或者在湖北等区域有过逗留会收到类似的电话或者短信提示。 另一家AI巨头百度也基于智能语音技术能力构建“智能外呼语音机器人”,可提供流动人员排查、本地居民排查回访、特定人群通知三大场景的外呼服务,比人工电话效率提高数百倍。据了解,从1月28日至疫情结束,百度不收取任何免费向各级政府、卫健委机构、基层社区、疾控中心等相关疫情防控机构开放智能外呼平台。 (2)AI辅助诊疗 由于冬春季交替本身就是感冒、流感高发期,再加上新冠肺炎疫情发生,在现有医疗资源紧张的情况下,发展远程医疗和在线问诊已经成为刚需。在远程医疗诊断过程中,又分为人工医生咨询和智能语音解答两种,目前更为高接诊效率和服务能力的是智能语音赋能基层医疗、辅助基础工作,协助基层医生进行疫情筛查防控和防疫知识科普的模式。 在抗击疫情过程中,一线的医护人员本身与确诊或者疑似病例打交道过程之中也成了易感人群,如果采用机器人医生(AI医生)进行进行检测和诊断能够很好的保护医护工作者的安全。在国内,科大讯飞研发的“智医助理”机器人参加职医考试曾经取得超过456分成绩并荣获获得健康中国年度论坛“十大AI医疗创新项目”。 在疫情期间,针对智医助理当前覆盖的安徽省内66个区县,在线分析基层门诊病历,筛选潜在人群。1月25日以来,持续向公共防疫部门提供分析报告,还通过语音合成技术助力基层医疗培训。 在远程医疗方面,百度App开通“问医生”服务免费通道,为用户免费提供肺炎相关问题的线上咨询服务,并对武汉地区的用户优先匹配医生。用户可以通过百度APP搜索语音搜索“问医生”,即可进入咨询页面,点击“免费咨询”就肺炎类病症问题请教医生。据了解,百度“问医生”再次扩大全免范围,针对温州、重庆、长沙、信阳、南昌、杭州、宁波、台州、南阳、驻马店10个疫情严重城市,提供覆盖全科室病症的7*24小时免费咨询服务。 (▲百度App问医生把智能语音搜索、智能小程序、远程医疗进行了结合) (3)在线课堂 疫情期间,在线教育暂时成为了主流,最近湖北省等地方的中小学纷纷宣布推迟开学,针对因疫情而耽误学习进展的学生群体,智能语音企业开通了线上直播教学服务,保障广大中小学生在疫情期间“停课不停学”,科大讯飞利用智能技术构建起“互联网+”条件下学校的“智能教室”环境,免费支持湖北省学校开展自主网络教学服务,包括智能教学助手、智慧空中课堂、同步课后作业,同时打通了教师端的软件与学生端的应用,目前已经对接了北京、安徽、湖北、上海等全国19个省31个区域,覆盖学生数量超过800万人。 (▲科大讯飞的智慧教育模式) 百度是BAT三家之中与知识信息联系最密切的巨头,疫情发生之后, 学生学习方式转移至线上,百度释放了大量免费的优质教育资源,比如小度联合在线教育生态合作伙伴,免费提供价值1亿的儿童教育资源;百度智慧课堂面向全国基础教育区域和学校提供服务,包括面向K12领域免费提供千万新课标备课资源和千万优质题库,并能够根据教师学科、年级、教材版本信息及实际教学进度,精准推荐与教学需求匹配的优质备课资源;百度云智学院向高校免费提供教学实验管理平台,所有在线学习资源都可在官网免费获取。 02 科大讯飞与百度在发展智能语音技术上的不同策略 由于中国智能语音行业主要由两类企业把持头部,一类是专门的智能语音技术厂商科大讯飞,长期深耕智能语音技术;另一类是综合互联网公司,凭借互联网的流量优势抢占语音信息流的入口如百度等。 据中商产业研究院数据显示,在国内智能语音市场,技术实力雄厚的科大讯飞与百度占据70%以上的市场份额,其中科大讯飞作为在语音领域深耕20年的龙头企业,市占率已经达到了44.2%。 尽管科大讯飞与百度在智能语音技术领域有一些相同点,比如两者都开发了自己的输入法讯飞输入法和百度输入法;都有面向其他智能硬件的开放策略,在to B应用上都在做大自身的生态。不过在发展逻辑上还是有一些差异。 阿星认为,科大讯飞是以智能语音技术起家的,是从以To B业务为主转向To B+To C双轮驱动,以智能语音识别为核心的AI产品战略形成开放平台。而百度智能语音技术是从to C切入到to B行业解决方案的,二者殊途同归,但是路径有明显不同。 科大讯飞在智能语音方面的技术研发投入是首屈一指的,甚至由此把合肥打造成了为“中国声谷”与“世界声博会”举办基地。讯飞智能语音技术也得到了广泛的认可,成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商。 近年来讯飞自主研发的软硬件一体化智能产品受到市场青睐。其中讯飞翻译机、讯飞智能录音笔、讯飞听见录音宝、讯飞智能办公本、讯飞智能鼠标等收到了职场、留学以及旅行人士欢迎,此外,阿尔法蛋智能音箱产品进军早教市场。 百度的人工智能技术源自搜索,而智能语音识别技术来自于语音搜索,而把智能语音领域拨高是小度升级为的DuerOS。DuerOS在数字信号处理、语音识别、语音合成、语音语言一体化、语音语义一体化、语音图像一体化等方面完成了智能语音的交互硬软一体、跨领域协同的一系列创新,赋予硬件设备与人沟通的能力,用户可以使用与搭载了DuerOS的智能设备进行语音交互,实现设备控制、情感交流、日程管理等功能,推动了百度智能语音技术在硬件领域的落地应用。 作为百度的智能语音交互系统和对话平台,DuerOS是很多智能音箱品牌产品的操作系统,帮助合作品牌商减轻了研发成本,引入了百度系的内容和生态资源。除常规的智能音箱产品,百度还推出带屏幕的智能音箱产品——“小度在家”系统,开创了智能音箱新纪元。 由于上述两大智能语音技术厂商已经占据了市场领先位置,并且在智能产品上已做足了护城河,这使得其他互联网公司进入这一市场门槛加高,而随着用户流量、用户粘性加深,使得智能语音市场形成强者愈强的马太效益。 03 未来智能语音技术所赋能的重点4大场景 在人工智能产业中,智能语音产业化程度相对成熟,是所占份额比例较大的细分领域,据清华大学发布的《中国人工智能发展报告》数据显示,智能语音领域的市场份额在国内人工智能市场份额的占比可以达到24.8%。赛迪顾问预测,未来两年智能语音市场规模仍将保持25%以上的增长速度,2020年中国智能语音市场规模155亿元、2021年市场规模195亿元。 当前,智能语音技术尽管格局“双巨头”已经形成,但依然蕴含着巨大的发展潜力,比如语音技术的应用可以逐渐进入工业、车载、家电、客服、通信、医疗、家庭服务、教育等更多行业延伸,AI语音可以向“衣食住行医学娱”等场景渗透,从而通过语音交互解放用户手眼,提升人机交互的体验和生活品质,而以下四个关键场景将成为未来智能语音巨头争夺的四大战场: (1)在家居场景,通过AI语音指令操作电视、音箱、灯、空调、油烟机等家庭电器,比如海尔智家等。 (2)在车载场景,通过AI语音指令帮助驾驶员减少对车内设备的直接操作,如导航、广播、接打电话、开启空调、雨刷等,从而提高行驶安全系数,比如百度Carlife等。 (3)在医疗场景,将AI语音技术运用于病历录入,节省医生书写时间,提高工作效率,方便随时查阅,比如讯飞智医助理。 (4)在客服场景,由AI客服解答80%的用户常见问题,可以广泛应用在营销、银行、金融、政务等领域,人工则专注于更具有人性化、情感化的深度定制服务方面。 上述这四大应用场景商业价值潜力巨大,智能语音均可以成为重要战略入口。 【结语】 在人工智能时代,智能语音技术是其他智能技术和智能产品应用的基础,当前新冠肺炎疫情发生或许打乱了一些计划和部署,但是也让全社会坚定了智能化、数字化的前进方向。当前疫情也是科技企业实力的试金石,笔者相信,科大讯飞和百度在智能语音技术成果得到了检验之后也会加大对于更多地区、更多企业的开放力度,伴随智能语音技术在更多场景开发应用、人工智能技术整体智能化程度的加深,未来智能语音技术一定能够造福更多人,助力中国社会的全面进步。■ 本文作者:靠谱的阿星(李星),公众号:靠谱的阿星,科技自媒体&媒体专栏作家,专注于公司商业模式研究和互联网行业分析,靠谱汇创始人,个人微信号:kaopuhuiclub 原文章作者:靠谱的阿星,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 盯袈 4 天前
    1456 0
  • 从 AI 到 AR,下一代交互落地的样子 | 对话 Rokid 祝铭明
    AR 爆发......今年是起点,我们还需要 5 年。 赶在农历年前,在西溪湿地北大门正对面的西溪壹号,开张了一个面积不大的「若琪科技馆」——不需要专人讲解员,佩戴好最新发布的 Rokid Glass 2 参观,可以了解所有「馆藏」背后的故事。 故事本身并不重要,更重要的,这个馆是作为 AR 眼镜的典型应用场景,让来访者对于 AR 技术的落地,能有更为生动的认识。 在展馆的门前,悬挂着两面旗帜,分别打着两个主题词——AI 和 AR。而在这两个主题词的下方,则是 Rokid 的两款「尖刀」产品:Rokid Alien & Rokid Glass,音箱和眼镜。 能为自己同时打上 AI 和 AR 的标签,同时拥有在语音和视觉的核心技术,并有能力推出一系列的软硬件产品,这对于 Rokid 这家成立仅有 5 年的创业公司来说,并不容易。 为什么 AI 之后是 AR? 早在 2015 年底 2016 年初,伴随着 Rokid Alien 的惊艳亮相,与众不同的外观设计、两个字的唤醒词、出色的人声,Rokid 颠覆了当年流行的家庭陪伴机器人的形象,甚至引领了次年才开始流行的智能音箱的设计。 随后,顺应了智能音箱的大潮,Rokid 还陆续推出了 和 等多款设计独特的智能音箱,并以语音 AI 开发板和 AI 芯片为载体,逐步开放了其。 △ Rokid Alien 而正当人们在期盼其下一代「语音」产品的形态和能力时,Rokid 已经跳出了这个圈子,开始大秀其「视觉」能力:从 CES 2018 后,Rokid 陆续亮相了 、 两款智能眼镜。 我们可能不止一次的和 Misa 聊过,为什么在 Rokid Me 之后,没有其他音箱产品的规划?Misa 很肯定的回答: 相比智能音箱,AR 想象空间更大。 AR 将成为手机之后新一代交互平台,而 AR 眼镜则是继 PC 和智能手机之后的下一个可以承载人机交互的最佳产品形态。 在众多的 AI 公司里,Rokid 是为数不多的从语音直接转向做 AR 的公司。没有去做诸如时下大热的 TWS 耳机、或相对容易一些的音频眼镜的产品规划,而是直接切入 AR 眼镜,这可行吗? 对于 Rokid 而言,无论是技术储备还是产品规划,做挑战最大的,走在交互创新的最前面,才有机会。 △ Rokid CEO Misa AR 眼镜离消费市场还有多远? 很多人受到了科幻电影以及一些硅谷先行者的熏陶,对 AR 眼镜有很高的期待。尤其是在 Google Glass 过早在大众市场进行高调宣传后,人们对于 AR 眼镜的第一反应就是它应该是像手表、耳机、眼镜一样,是日常可穿戴的。 △ Rokid Glass 2 但现实是迄今为止仍没有一款 AR 眼镜真正量产走向消费者。即便是苹果公司的 AR 眼镜,也迟迟没有推出。AR 眼镜离消费市场还有多远? 消费者的期待很大,与硬件能够达到的能力,相差还是很远。toC 可能还有 3-5 年的时间,就算你拿 100 亿补贴砸进市场也是无济于事,消费者还是不会买单。 既然 AR 眼镜的现实情况是硬件和软件的挑战都很大,Rokid 会如何做? AR 产业空间巨大,在爆发节奏上,toB 硬件将先于 toC 硬件,在 toC 硬件成熟之前,Rokid 将聚焦于商业领域的应用与落地。 Rokid 要做的,是在 AR 普及的早期,将产品进行沉淀,把软硬件和交互体验打磨到最好,即便是在行业应用领域,也要有消费级一样好用的体验。 那么 AR 眼镜真正普惠大众,需要多长时间呢? 今年是起点,我们还需要 5 年。 为行业设计的 AR 眼镜应该是什么样子? 对于进入行业市场,有一点很重要: 并不是产品有硬伤,就只能退居行业市场,而是行业市场的需求更大。 最新发布的 Rokid Glass 2 是一台面向行业市场的 AR 眼镜,采用分体式+可折叠设计,支持免唤醒语音,支持触控和头控多模态交互,并为行业用户提供了诸多扩展能力。 为什么 Rokid Glass 2 是「为行业而生」呢? 因为在产品设计之初,几乎所有对前代 Rokid Glass 的迭代更新和功能定义,需求都是来自行业客户。 这样一来,当我们拿起 Rokid Glass 2 和一代眼镜对比是,很多问题就有解了: △ Rokid Glass 1 & Rokid Glass 2 为什么将原来的「一体机」方案替换为不够炫酷的「分体式」? 每一个技术的每一个链条和分支,都蕴藏着许多有待挖掘的应用,而这些应用场景的想象空间也远比我们想象中的要大。客户需要长续航。增加了的 Dock 不仅内置了 10000mAh 大电池,延长续航时间长达 8 小时,还支持 4G、GPS 等扩展模块,以满足不同行业的特定需求。 为什么要有免唤醒的语音操作?是因为黑科技耍酷吗? 因为工厂需要。在安防、工业等场景,用户「只能动口,不能动手」的需求摆在那里。 为行业设计的 AR 眼镜体验如何? 在现场的工业场景演示中,我们看到「工人」可以通过语音命令「我的相机-拍照」操控 Rokid Glass 2 拍照;如果需要查看图片或者文件时,也可以直接使用语音调出文件;同时,语音命令词并辅之以头部姿态控制,实现图片的放大、缩小、翻页、锁定画面等操作。 这一系列的炫酷操作的同时,「工人」的双手都是解放出来的,并且基本能够实现话音一落功能便实现的效果。 甚至,在增加了工业场景的刺耳噪音后,Rokid Glass 2 仍能准确拾取佩戴者的指令声音。而在遇到故障的时候,语音连线中央控制室的「同事」进行云端远程协助,视频和声音画面的传输亦能做到实时。 △ Rokid Glass 的工业应用场景 这些,恰恰是头几年 Rokid 在语音离线识别、免唤醒、近场定向、降噪等技术积累的体现。 Rokid 的新品是否代表了目前行业的最高水平,你们体验后就知道了。 Misa 带着我们熟悉的骄傲,自信的说。 从行业中来,又如何落地到行业中去? 像开篇提到的科技馆,乃至展览馆、博物馆,就是 Rokid Glass 的典型应用场景。除此之外,安防、工业、教育等行业还有很多 AR 眼镜的用武之地。 作为经历过 PC 和手机产业革命的人,我认为 AR 产业的增长,将会首先从中国开始。 Misa 带着团队抓着这一波机会,一手打磨产品体验,一手推动产业落地。 从去年 RokidGlass 小规模量产后,我们就陆续看到很多案例:成为乌镇互联网大会安保战略合作伙伴,宣布与菜鸟战略合作落地物流行业,亮相赛诺菲首届数字医疗创新峰会试水 AR+医疗,被司法部部长点名助力 AR+智慧戒毒...... △ Rokid Glass 在乌镇互联网大会安保场景的应用 就在春节期间,在举国上下都在抗击新型冠状病毒肺炎的疫情的时候,Rokid 向疫区一线执勤人员送出了 AR 眼镜设备及相应的配套应用软件。 △ 2020 年 1 月 30 日,衢州常山高速口防疫检查站,执勤人员利用 Rokid Glass 对来往车辆进行核查 在防疫检查站点,执勤人员佩戴 Rokid Glass,就能够在一米的距离外, 避免跟车内人员的直接接触,而快速识别通行车辆和人员的信息——通常 1~2 秒就可以确定一个人的身份,特别是户籍身份,判断是否和疫情高发区存在联系,识别潜在风险。 △ 2020 年 1 月 30 日,杭州留下检查站,执勤人员利用 Rokid Glass 对来往车辆进行核查 Rokid Glass 针对暗光、动态环境进行了专门优化。即使天色变暗,依然能够保持 90% 以上的识别率。 △ 专为 Rokid Glass 2 配备的一套近视镜片 为了实现更好的用户体验,Misa 说: 产品场景还需要在一线继续打磨。 ■ 主笔:陳壹零 / 深圳湾 编辑:森林木 / 深圳湾 Rokid 长大史 // 智能眼镜// // toB// // toC// // 公司// 真知灼见的科技记者 四通八达的运营编辑 原文章作者:深圳湾,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 刁雏 4 天前
    1435 0
  • 日均唤醒2.4万次!威马的语音助手道出了销量增长的秘密
    与拜腾在国内停摆截然相反的是,同是造车新势力的威马汽车,表现出逆势增长的强劲势头:二季度累计销量环比上涨77.8%,6月销量达2028辆,再创年内单月销量新高,环比大幅攀升34.9%,实现环比“四连增”。 在单一车型方面,自2018年9月启动交付至今, 威马EX5(参数|图片)已累计销售29720辆,成为“新势力”中首款销量达3万辆的单一车型。 而在其创造销量“逆势生长”的背后,威马是靠什么样的优势去抓住消费者的? 抓住核心优势,破除智能助手的“鸡肋”困局 “反应迟钝、不能正确理解需求,还不如手动来的方便。”麻辣车事近日采访了一些有车载语音功能的车主,大部分人表示,在经历过几次不佳体验后,就弃用这一功能了。 的确,如果不借助互联网大数据,车载语音技术很难有新的突破。目前大多数车载语音厂商都能实现诸如设定导航、控制空调及车窗等基本功能,但是要想达到云交互的功能,就会出现很多问题。 而根据威马大数据平台的显示,今年上半年,威马汽车累计为用户提供免费流量近40万GB,智能语音助手AI小威为用户完成445万次“零接触”语音指令。 用户们都用语音做了什么呢?“打开爱奇艺超102万次;用远程蓝牙开启空调超过15万次;开启车内空气净化超352万次......”从“哄娃神器”的横空出世,到日均2.4万次智能语音交互的“接梗达人”,看得出来,用户的出行早已离不开威马的智能助手了。 而语音助手的智能离不开全生态的软件系统。作为智能电动汽车的核心优势,威马汽车的OTA升级能够打通地图导航、社交、智能家居以及能源等领域,为用户带来“常用常新”的智能互联汽车生活。 “相比其他传统电动汽车,我最满意的是威马EX5能够OTA升级,越开越好开。”威马车主周先生自从去年3月开上威马EX5后,智能体验让他爱不释手。 软件是电动车的核心优势。软件在整车中的价值占比越来越高,从三电的核心软件、到整车OTA、以及智能网联所包括的多媒体驾舱和自动驾驶技术,都涵盖在了软件价值之中。“智能科技时代,‘聪明’的汽车才更受欢迎”威马沈晖说,或许这也是EX5到EX5-Z的成功的原因之一。 大数据驱动体验升级,把消费者的需求get到点上 据威马大数据显示,今年上半年,威马用户群体中95后人群的占比,较去年同期增长了43.4%,“奶爸奶妈”的亲子家庭用户占比更是高达69%。 而正是基于对年轻家庭用户心态的深刻洞察,威马汽车在5月10日官宣了“零接触智能交互纯电SUV”全新威马EX5-Z的上市。 对于家庭用户而言,威马EX5-Z车身长宽高尺寸分别为4585/1835/1672mm,而其2703mm的轴距领先同级别车型,让威马EX5-Z虽然为一款紧凑级纯电动SUV,但车内空间表现依然充裕,驾乘舒适性都比较高。NEDC 400-520km的续航里程也消除了大部分家庭用户的里程焦虑。 而对于年轻人的需求,则是用年轻人的思维去让产品力提升,车辆几乎所有的重要功能都可以通过智能语音实现,威马在EX5-Z上充分发挥了“Lazy Technology”的产品哲学,提升车内外全场景式智能交互体验。车主甚至可以通过语音远程控制30多种家用电器。 另外,威马EX5-Z拥有同级功能最全的L2级智行驾驶辅助系统,还有感应尾门、空气净化系统、自动泊车等便利配置,都是基于对消费者的洞察而改进的。 不断完善自有体系建设 “实力派”是威马汽车在新造车势力中不断强化的品牌代名词。而对现在的威马来讲,除了产品层面的发力,在建设自己的体系方面,也相当重要。 今年上半年,威马的新零售渠道增加了46家,覆盖全国一百多座城市,还与国家电网等13家充电服务商合作,接入国内260多座城市的近20万根公共充电桩,充电桩同比增长了50%。 不仅如此,威马汽车携手国家电网率先落地即插即充技术以及V2G车桩双向充电技术,成为首家落地应用该技术的新势力车企。 对于尚显年轻的威马来讲,造车就像打橄榄球,在场上的每一个人,跑得慢就等于放弃,充满挑战的下半年,威马更不会松懈:6座版的 EX6(参数|图片)新车型很快会和大家见面,业内首台5G汽车会在年底如期而至,精心打磨的威马首台轿车也将在明年面世。 图片来源于威马汽车官网 原文章作者:麻辣车事,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于5 天前
    最后回复 金静曼 5 天前
    2333 0
  • 聊一聊语音交互以及语音助手
    编辑导语:随着科技的不断发展,如今语音助手也频繁的出现在我们的日常生活中,比如手机的语音助手、智能音箱等等,语音助手的出现也很大程度上提高的一些效率问题;本文作者分享了关于语音交互的理解,我们一起来看一下。 http://i1.go2yd.com/image.php?url=0SnucChX8Q “语音交互是一种简单、自然的人机交互方式,也是人类最基本的沟通方式。” 说起语音交互、语音助手,我相信大家一定不陌生。 2011 年,Siri 跟随 iPhone 4s 一同发布;2014 年,亚马逊发布 Alexa;2018 年,天猫精灵、小爱同学、小度等音箱开启疯狂补贴…… 如今,各种科技公司、互联网公司、车企,甚至是房地产企业都在做语音助手;你已经很难找到一台新发布,且不带语音助手的手机 or 汽车了。 我最早感受到语音交互的魅力是在16年,当时在做全屋智能的产品经理,公司调研产品买了一台亚马逊的echo,第一次体验到远场的语音交互,很惊艳,远场语音交互技术给了居家场景太多的想象空间。 后来国内陆续出了小爱同学、天猫精灵、小度音箱… 我基本都是第一时间买回了家。 18年5月,我去了猎户星空做服务机器人“豹小秘”,机缘巧合的负责起了它的对话能力,有幸伴随它从需要“一字不差的吼着交互”,到在全国各地的落地,我可能是最清楚它的对话能力是怎么做起来的人。 19年8月,我去了滴滴,一年多过去了,也算是从0到1做了一个给司机用的语音助手(遗憾是还没有做到全国全量…)。 到现在我也算是行业老兵了,想结合过往的经历和思考,跟大家聊一聊语音交互。 这次主要想聊下面几个话题: 语音交互是什么?做一款语音助手的难点是什么?//为什么 Siri、天猫精灵、小爱同学总被人说智障?可能的解决路径又是什么?//如何打造一个不傻屌的语音助手? 一、语音交互是什么? 交流是人们与生俱来的本能,人类大约在二岁学会说话,说话也是人与人之间主要的交互方式。 我们可以试着想一下,假如人与人之间不能说话,只能通过触摸固定的区域来交流,那世界会怎么样?我相信,你一定很难想象这会是什么样的世界;而事实上,我们现在与计算机交流的方式就是这样。 语音交互是一项人机交互技术,可以通过说话跟计算机交互来获取信息、服务等,语音交互也不是要替代触控交互,而是在一些场景中让人与计算机交互变的更简单、自然。 二、做一款语音助手的难点是什么? 说起难点,我先抛几个现状: 从 Google、苹果、微软、亚马逊,到国内的 BAT、华为等巨头公司都有做语音助手的团队;大多用户眼中,Siri、小度、天猫精灵、小爱同学等语音助手依旧是“人工智障”;使用过语音助手的人很多(19年光智能音箱出货7200W台,城镇住房渗透率 20%),但但用户活跃度低,使用过的功能也寥寥可数,主要是:听歌、查天气、订闹钟等; 为什么这么多顶尖的公司,投入了顶尖的资源、顶尖的人才都没做出一款 C 端用户满意的语音助手?为什么在很多用户眼中都是“人工智障”?语音助手的难点又是什么? 这些问题很大,值得从业者们一起思考,这里聊聊我的思考;我认为,导致人们经常说语音助手“智障”的原因是:用户预期与实际助手能力的 gap 过大。 http://i1.go2yd.com/image.php?url=0SnucC0lKA 就像这张图,用户预期与语音助手能力的交集少的可怜。那么有没有可能变成下面这张图的状态? http://i1.go2yd.com/image.php?url=0SnucCvxwM 按这个思路,问题的难点还可以继续拆解: 1. 问题 1:如何让用户知道语音助手能干什么? 语音助手背后的技能、内容其实都已小具规模(在19年,Alexa 集市就已经有了8万多个技能),但很多用户也就只会使用听歌、查天气、订闹钟这么几个技能(有屏音箱里充满了各种引导、推荐,就是试图在解决这个问题)。 而我认为这个问题最根本的原因是,大多语音助手还没有打透一个刚需场景。 像 90 年代初的互联网,大家也不知道互联网能干嘛,马云到处推销互联网还被骂是骗子;而随着互联网解决的刚需场景越来越多(BBS解决了社交需求、门户网站解决了获取信息的需求),也激发了更多的人去了解互联网能干什么。 所以,大多用户们不了解语音助手能干什么,本质还是语音助手没有找到一个刚需场景并打透(没有找到刚需场景,或者说没有在一个刚需场景中创造显著的体验差)。 2. 问题 2:如何让语音助手连接更多的服务、内容? 想要回答这个问题,需要从场景深度和广度两个维度来看。 深度方面,单一场景要打通的链路很长,体验闭环难。 案例 1:以家庭智能音箱的听歌场景为例,受限于音箱背后的音乐版权,而音箱没有,这会很大的影响体验;比如小爱同学,因为它连接的歌曲资源是QQ音乐,而我就没办法听自己在网易云收藏的歌单了。 案例 2:在家庭照明场景,想通过语音助手随意的控制家庭灯光,需要连接整个家庭灯光照明设备,这甚至得打通装修环境,在装修时就考虑。 广度方面,用户在跟语音助手交互时,会有非常多的碎片化小需求。 案例:在滴滴的司机语音助手中,除了大家可以想到的导航场景,司机还会有各种各样的长尾问题,例如:“网约车考试的题目在哪里?”、“飞机场那边的排队区在哪里”、“帮我查一下我的预约单”等等,这些都是司机自发的问语音助手的碎片化小需求。 3. 问题 3:如何管理用户预期? 导致用户预期过高也有两方面的原因: 一方面,用语言交流时,某种程度上人们会不自觉把“语音助手”与真实的人比较,尝试用人脑的思考习惯去理解“语音助手”,这必然会导致很多时候用户会觉得人机对话的结果不符合预期;因为目前的AI的原理和真正的人脑原理差的还很远(根本原因是科学对人脑的了解也还很初级…),再加一些科幻电影,还有媒体对人工智能概念的鼓吹… 另一个方面是语音无法设定交互边界,设计GUI交互时,我们可以定义出清晰的交互路径和边界(eg:首页只提供一个按钮);但是语音交互你无法限制用户说什么,就像人与人的对话中,你永远无法避免别人问到你不会的问题。 4. 小结 用户预期与实际助手能力的 gap 过大,导致很多用户认为语音助手“智障”,而导致 gap 过大的难点是: 当前语音助手的功能普遍太鸡肋,没有找到一个刚需场景并打透,用户都懒懒得去了解它;单一场景要打通的链路很长、体验闭环难,且碎片化小需求太多;某种程度上用户的预期过高,且语音交互难以设定的交互边界。 三、可能的解决路径 想打造一个不傻屌的语音助手,不仅仅是打磨技术本身,有落地时对无数细节的打磨、把控,还有语音助手背后的生态… 这些都不是一蹴而就的事情,需要有清晰的目标、解决路径,然后耐心的持续投入、细心打磨。 1. 找到刚需场景,打造出显著的体验差 我们希望它像钢铁侠的贾维斯一样可以帮忙主人完成各种各样的任务,它就得连接到各种各样的服务,也会是一个 all in one 的入口。 所以,第一步也是最重要的一步,一定是找到刚需场景,打造出显著的体验差。 说到这里,想先聊聊什么是流量“入口”,举一个智能家居行业的例子,业内一直有人在讨论智能家居的入口是什么。 早期有人说是路由器、电视,后来智能音箱出现,阿里、百度、小米等公司纷纷开启补贴大战,被不少人称为“智能家居入口之争”,现在又有人讨论智能音箱作为“智能家居入口”这个命题是否成立。 我认为,决定是否能成为“入口”的不是形态,而是刚需场景中的用户体验: 互联网早期,Yahoo因为在获取信息这个刚需场景做的好,成为了一个流量“入口”;后来,Google 在获取信息这个刚需场景下的体验更好,逐渐替代 Yahoo 为了一个流量“入口”;智能手机也是因为在通讯社交、获取信息、娱乐这些刚需场景的体验更好,才能成为移动互联网的“入口”; 如果有一种新的产品形态,能比智能手机在通讯社交、获取信息、娱乐这些刚需场景中整体体验更好,那就有可能取代智能手机这个产品形态,成为新的“入口”。 再说为什么智能音箱补贴了几百亿,一年有几千万的销量,都还没成“入口”? 因为光买一台智能音箱回家它也就只能听歌、查天气、订闹钟,对于大部分用户这都不算是刚需场景;对于少部分音乐爱好者,以市面上智能音箱的音质、内容资源又无法满足需求,做不到体验闭环。 反过来再举一个例子,如果你同时买了整套的小米智能家居产品(米家电动窗帘、米家吸顶灯、米家智能空调、米家扫地机器人…..) ,控制灯光遮阳、控制温度是刚需,通过小爱同学控制也确实体验更好,那么在满足这个条件家庭中,小爱同学就可以成为一个“入口”。 再举一个滴滴司机的工作场景中的例子,滴滴的服务和产品模式,导致司机不得不一边开车一边操作手机(eg:要操作手机接单、要给乘客发消息、平台还时不时 push 一张卡片让司机点击),随着滴滴要求司机做的事情在不断增多,司机需要做的操作也越来越麻烦。 原本,你只要会开车、认路就可以当出租车司机,现在已经变成了需要 “能熟练使用智能手机” 才能当滴滴司机。 就像热力学第二定律,一个独立系统的“熵”永远是在增加的。不过科技的进步,总是会有把办法来解决这个问题;就像多点触控技术和触摸屏的出现,让手机再也不需要那么多的物理按键了。 语音助手是有机会在网约车司机的工作场景中降低一些操作的复杂度,来打造出显著体验差的;把其中一两个刚需场景打透(比如给乘客发送消息),做到“有用”,那么语音助手就有机会成为连接网约车司机的一个“入口”。 在其他场景中也类似,只有找到刚需并打透,才有机会成为“入口”。 2. 规模化复制,带动服务者生态的建立 沿着上述思路继续说,第二步核心是要解决服务的深度和长尾的碎片化小需求。 我继续拿滴滴司机的场景举例,在我们刚上线“司机助手”时,就已经初步看到了“入口”的效应。 用户会把助手当成一个“搜索引擎”,他有各种各样碎片化需求、不知道如何处理的问题时,会尝试向助手的寻求帮助,但都是碎片化小需求;类似下面的这些意图,全部加起来也只占总交互量的5%。 “飞机场那边的排队区在哪里”“我想预约安装桔视记录仪”“怎么取消预约单”“网约车驾驶证怎么办理”“驾驶证总是审核失败无法出车”“……” 这些问题背后涉及的知识、服务非常多非常多。 想要把体验做好,就一定需要很多不同的部门提供深度配合,或者找到能为司机工作场景提供服务的第三方配合。 那么,想要做到“不傻屌”的程度,就得先解决服务者生态的动机问题;对于公司内部的服务提供者来说,毕竟大家都是打工人,都要收益、要晋升;对于公司外部的服务提供者也一样,最直观的就是能不能帮助他们赚钱。 所以,这里又要强调第一步的重要性,如果可以把辅助司机的工作刚需场景打磨透,实现全国全量,那么按滴滴上百万司机和超高的使用时长(普遍每天使用 App 8小时以上)估算,对于很多业务都算是不小的流量。 在这一步,重点是打磨工具能力,让各种各样的服务提供方可以简单、高效的接入助手;进而促进更多的业务部门通过助手为司机提供服务,实现业务价值,也进一步让助手具备了更多的能力去服务好司机。 如果能做到这一步,语音助手才算是从“有用”开始走向了“不傻屌”。 3. 打造每个属于用户自己的语音助手 我们想让助手每天陪伴司机、辅助工作,第三步就要开始解决交互边界的问题,即怎么让用户知道语音助手的能力边界?有一说一,还没有一个语音助手把这个问题解决好。 我在这里也只是聊聊自己思考,抛砖引玉。 身份与关系决定了人与人的交互边界,例如:网约车司机不会咨询一名乘客为什么自己接不到单子,他会去问客服。 人机交互中也一样,目前像小爱同学、天猫精灵都是“人工智能助手”的身份,关系上类似“仆从”;这个身份对语音助手造成了不小的限制,前面的“人工智能”让用户觉得你应该很厉害,后面的“助手”让用户认为我说啥你都应该听我说。 这也叫导致用户提出各自各样的开放性需求,从讲个笑话、放个屁,到查阿里巴巴的股价、马化腾是谁等等;如果语音助手听不懂、搞不定,用户很可能就会说 “这都不知道?”、“智障”、“不聪明呀”… 那有没有一种理想的身份,可以能让用户的知道边界,同时又不有保留一定的拓展性? 超能陆战队大白的设定似乎可以满足这个条件, 大白的设定是一个机器人,默认可以通过安装不同的芯片来实现不同的功能。 默认设置的是“私人健康助手”芯片,在电影中为了给主人公的哥哥报仇,被换上了“空手道”芯片;在动画版本中,还有“跳舞”芯片,放入后大白就拥有了跳舞能力。 这些不同的“芯片”,其实就像iPhone 中的不同“App”,每个用户可以决定自己的手机上安装哪些 App。 这个思路,也许可以解决语音助手交互边界的问题;我认为,语音助手跟传统的 App 产品不一样,不用非得保持一个固定的身份定位,可以根据不同场景提供不同的基础服务包,让用户自己决定它应该拥有哪些的技能。 早期围绕刚需场景,它可以是地图导航助手、司机工作助手等,在服务逐渐增多后,也可以由用户确定他自己的语音助手应该拥有哪些技能。 这也是为什么我在解决路径中,把找到刚需场景打透放在了第一步,把确定助手的定位放在了第三步。 4. 最后,还有一个前提:对打磨技术细节的耐心和投入 语音助手在落地中,有无数的细节需要把控。 我拿一个大家可能都用过的定闹钟举一个例子: 1)语义的泛化需要打磨 “定一个8点的闹钟”“提醒我9点上课”“15分钟后叫醒我”“我再睡五分钟”…… 想让语音助手可以准确的响应用户自然表达,就需要不断的标注、分析用户真实表达,去打磨语义理解模块。 2)回复的话术、逻辑也需要打磨 用户在早上8点说“定个9点的闹钟” ,该定上午9点还是晚上9点?该怎么回复?用户在早上10点说“定个9点的闹钟”,该定晚上9点还是次日早上9点?该怎么回复?用户在凌晨2点说“定个明天8点的闹钟” ,该定明天8点还是今天8点?该怎么回复?… 这些case在平时生活中很常见,如果我是对老婆说,我不会特意强调是“早上”还是“下午”,她也不会纠结、不会反问我,因为她了解我的生活作息。 但语音助手需要积累,通过分析各种的用户case去制定最优的策略。 如果想要语音助手贴心一点,最好还能在不同场景给出不同的回复。例如:凌晨2点定早上8点的闹钟,最好贴心的补充说一句“不早了,早点休息” 这些都是细节,需要一点点的耐心打磨。 如果一个语音助手的负责人,只谈行业趋势、产品架构、技术架构,我会觉得很难做成;因为一个语音助手在落地的时,会有无穷多的细节问题需要把控,不仅要仰望星空,还要脚踏实地。 5. 总结 想打造一个聪明的语音助手,需要一个前提、三步路径。 一个前提: 对打磨细节拥有足够的耐心和投入 三步路径: 找到刚需场景,打造出显著的体验差,才有机会做到“有用”;规模化复制,带动服务者生态的建立,做到“不傻屌”;个性化,给用户属于自己的语音助手,做到“聪明”。 四、其他,一些感性的故事。 后面,我想分享一些与语音交互相关的感性经历。 我觉得能做一款“有头有脸”、“能说话”的产品真的特别有趣。 做豹小秘时,随着它一点一点的变好,真的会有一种看着自己“孩子”长大的感觉,每次去商场遇到它也都很亲切,会过去跟“它”打个招呼。 2020年9月我在老家办婚礼,刚好遇到一个伴娘临时有事来不了,我找了豹小秘给来当伴娘。 给你们看看婚礼现场它的照片。 http://i1.go2yd.com/image.php?url=0SnucC8dQo 婚礼当天,在门口帮忙迎宾 http://i1.go2yd.com/image.php?url=0SnucCOTyb 和伴郎伴娘们一起登台 http://i1.go2yd.com/image.php?url=0SnucC9EcR 代表伴娘发言 在滴滴做司机助手“小滴”也是一段特别的经历。 当时去滴滴面试,一面时聊了聊,发现滴滴业务场景中有很多的问题值得去解决,觉得充满了机会,很嗨。 入职后,有一个新员工培训叫“在树上”,过程中要求每一位同学都发现并提交一个体验问题发布至内网。 我就提交了一个可以用语音交互解决的体验问题。 http://i1.go2yd.com/image.php?url=0SnucCsYQQ 培训的最后,每个小组需要挑一个体验问题演成“小品”,我就忽悠组员们一起用这个案例演了小品。 最后发言时,我还信誓旦旦的给大家说,这个问题我正在解决,年底(19年底)就会和大家见面;后来发现,我完全低估了要从0把语音助手落地到一个成熟业务中的难度,需要和太多的部门沟通、拉齐。 还好的是,2020年5月终于把这个功能上线并且做到全国全量了,它也是语音交互第一次在滴滴业务场景的大规模落地。 功能全量之后,我每一次打车我上车都跟司机聊天,问他知不知道、用没用过,有一次碰到个司机夸了一路这个功能好,然后我下车就给司机加了一个红包。 随着这个功能取得了不错的用户反馈,给完整司机助手也开始推进、落地,它的推进难度更大;因为它的价值难以量化,业务增长也并不需要这样一个东西。 2020年7月2日,“小滴”第一次灰度上线,那天刚好还是我的生日。 12月,因为一系列的原因,我决定了提出离职。 临走前,我也跟“小滴”说了声再见。 没有把“小滴”做到全国全量是我的遗憾,滴滴的经历也让我有些挫败。 不过回头想想,过程中也慢慢找到了自己的愿意坚持的产品理念:“不放弃对生活的热爱和执着”。 本文@常超 原创发布于人人都是产品经理。未经许可,禁止转载。 题图来自Unsplash,基于CC0协议。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于5 天前
    最后回复 房榕 5 天前
    2766 0
  • 服务机器人如何实现人机交互服务机器人使用什么技术
    从国家计划生育政策看出,中国的人口结构已发生很大的变化,随着中国人口红利的下降,机器人投入工作的模式得到认可和发展服务,机器人在各行业发挥更重要的作用,那么服务机器人是怎么实现人机交互的?它是使用了什么样的技术呢? 澳博服务机器人交互方式,首先我们来看一下视觉人机交互对一个人来说,最主观的就是看他的面部表情,今天我们可以通过人脸识别的机器人来判断用户是否愉快?如果快了他会说的更多,未来的机器人应该理解人们的感受,使用到人脸识别技术。 语音识别的人机交互模式,它主要通过云计算平台人的声音在云计算中处理,最后通过客户端反馈形成实时交换的东西最后基于人机交换交互技术在相互作用下不仅运动肌肉表现也是很重要的,肌肉信号研究也是人技术传输研究的一个重要方面,可以模拟人体肌肉调节机制达到更好的效果,未来包括声音,身体运动面部特征,这些模式可以结合起来实现良好的人机交互不?广州澳博信息科技有限公司那些服务机器人的特点是无所不知它与云计算网络相连可以搜索一切,人们对它的期望就像在科幻电影中的一样,人们担心未来机器人可能会逐步的替换人类,但是这在短期之内都是不可能实现的。 原文章作者:澳博服务机器人,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于5 天前
    最后回复 意福浏 5 天前
    1751 0
  • 云知声「蜂鸟」芯片标注化离线语音解决方案
    蜂鸟系列芯片是云知声专为离在线远场语音交互场景设计的高性能,高集成度,低成本的语音智能 IoT 芯片,围绕蜂鸟所搭载的软硬件方案,可应用于多种智能家电终端。 基于蜂鸟芯片的深度定制算法,云知声离线语音技术在远场拾音、声源定位、高性能识别、地功耗唤醒、自然音色、one-shot 等方面都有不错表现。 方案配有双 mic,尤其在复杂噪声下(如电视背景音)可更便捷提升命令的识别率。同时,可实现 100 条离线命令词对话交互。在线语音场景下,可提供在线定制命令词工具,方便快速导入产品。 应用场景及产品可包含在家居环境下的厨房、客厅、卧室、浴室等在内的白电(空调、洗衣机)、灯具(台灯、吊灯)、86 面板(语音面板)、厨电(微波炉、整箱、烤箱、油烟机)、小家电(闹钟、电动窗帘、取暖桌、晾衣杆、电风扇、取暖器)、卫电(沐浴房、浴霸、热水器)、遥控器(语音遥控器、智能插座) 整体方案可提供整套芯片、模组、硬件参考设计,据悉在无特殊定制需求情况下,一个月即可出货产品。 原文章作者:科技互联热议,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于5 天前
    最后回复 汞床璞 5 天前
    3078 0
  • 研发智能语音交互系统,蛙声科技完成近亿元a轮融资
    商道创投网1月8日官方获悉:专注于视频会议智能设备研发生产的苏州蛙声科技有限公司已经完成近亿元人民币的A轮融资,本轮投资由GGV纪源资本领投,钟鼎资本、远望资本跟投。融资资金将用于新产品研发、销售渠道拓展、品牌宣传与推广等。蛙声科技成立于2018年5月,是一家致力于为全球企业提供远程协作解决方案的企业,由美国西北大学计算机专业博士,原Microsoft、Amazon工程师辛鑫创立。公司主要产品为云视频会议硬件。 蛙声科技:远程办公,如虎添翼 苏州蛙声科技有限公司(以下简称为:蛙声科技)成立于2018年5月,总部位于苏州,是一家专注于高干扰环境下保持高精度唤醒率、同时满足低成本、低功耗要求的语音降噪激活方案提供商。 在满足复杂应用场景唤醒精度指标的前提下,蛙声科技提供适合各类智能家居、车载系统、白色家电、便携式电子产品、可穿戴设备等语音识别模块,硬件设备全线产品采用USB直连,无需驱动,即博即用,适用于各大主流云视频会议平台。蛙声科技核心团队成员均来自国内外知名技术公司,在语音软硬件相关方面拥有扎实全面的技术背景。 融资方蛙声科技下一步计划是什么? 融资方蛙声科技创始人兼CEO辛鑫表示:目前蛙声科技专注于产品力、渠道生态,以及品牌建设三方面。本轮融资结束后,公司将加大科技研发投入,提升产品性能及品质,同时加速国内外线上及线下渠道业务拓展,以优质产品和服务体验,赢得用户口碑和信任,逐步从视频会议场景延伸至远程教育、远程医疗等其它远程协作相关领域。 投资方钟鼎资本本次投资的理由是什么? 投资方钟鼎资本合伙人汤涛表示:钟鼎资本持续看好蛙声科技团队,创始人辛鑫和蛙声团队潜心研发音视频硬件多年,具有过人的产品定义能力和迭代速度。在企业协作单元灵活化的未来,蛙声科技用音视频技术赋能企业的沟通场景,将逐渐成为工作或生活中不可或缺的终端之一。钟鼎科技注入资源,希望能助力蛙声科技长大。 商道创投网对本次融资事件作何评价? 商道创投网创始人王帅观点:在去年,国内视频会议的需求市场被无限放大,其智能设备刚需、高频,还有很大的全球化空间。随着蛙声科技不断积累算法、夯实音视频技术,其业务将拓展到更广的市场,发展成以音频技术驱动的平台型公司。 原创作者:郑彤 官方审核:Zofia 发布时间:2021年1月8日 版权归属:商道创投网|一个具有家国情怀的创投圈生态服务商,致力为华人创投圈的繁荣发展而努力服务! 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于5 天前
    最后回复 岘昂 5 天前
    1504 0
  • 非接触经济的背后,智能语音场景落地遭遇“瓶颈期”|亿欧观点
    文|杨阳 编辑|王彬 当下,随着中国企业复工、各地高校开学井然有序的进行,一些智能语音产品逐渐出现在人们的视野。 其中,思必驰在疫情期间推出的疫情防控机器人,累积播出电话700万通,其中有350万通是互动型机器人,另外一半是外呼式机器人。该机器人已在全国28个省份的防控一线迅速落地,覆盖苏州、淄博、孝感、黄冈等121个地级市的近800个基层社区。 在疫情期间,武汉方舱医院的医生提出,在身穿厚重工作服的情况下去记录病例非常困难且不便。同时在医院的环境条件下,通常是多位医护人员共用一套医疗设备,多频次触摸公众场合的设备,也会增加交叉感染的概率。 因此,云知声将语音识别和知识图谱技术二者结合,应用在医疗领域。可以帮助医生快速、高效地录入病例,并且通过知识图谱来帮助医生检查病例的完整性,并快速发现和定位一些错误。此前,该产品只是提高医生的工作效率,现在,产品已经达到了辅助诊断的作用。 这次疫情给人们生活带来的最大的改变之一,就是公共场合的交互方式。云知声CEO黄伟告诉亿欧:“此前我们习惯了触摸的方式,但是在疫情期间,公众场合的触摸会增加交叉感染的风险。而零接触的交互方式,会逐步让大家所接受。” AI新基建催生行业新模式 智能语音是一种长链条的系统模式,它讲求的是整体智能,而不是单一的模块智能。黄伟提到,语音交互以前的存在方式可能是“nice to have”,但是在当前的某些场合,它是“must to have”,智能语音系统的价值越来越凸显。 例如,北京海淀区政府大楼应用的智能电梯方案,正在搭载云知声自研的蜂鸟AI芯片。该芯片是一款专为离线/在线语音交互场景设计的高性能、高集成度、低成本的语音智能芯片,可广泛应用于各类智能家电产品。这也是云知声一直提倡的“云、端、芯”一体化的使用落地,根据不同场景灵活提供智能方案的组合。 此外,不论是深度学习或是机器学习,这种人机交互的手段和方式,其本身是一种辅助技术,更需要与终端产品的应用相结合。所以新基建的提出,很符合当今科技发展的速度,不论是5G、人工智能、大数据、云计算......都是底层的通用能力。 基于新基建的这些能力,企业才能做出更多有创造性和生命力的产品。虽然AI要对所有产业进行渗透,但AI也在带动所有产业打破行业隔阂。在未来可能会出现行业重塑、融合,甚至催生出新的行业。 思必驰CEO高始兴举例说道,当一个对话式智能音箱可以在社区进行医疗问诊服务的时候,这个智能音箱的行业属性就需要重新定义。同样,通过语音控制某些车载系统,进而去调节智能家居的使用与否,也打破了车载和家居行业的天然屏障和壁垒。 所以,新基建可能是未来所有行业重新塑造和发展的根本。同时,黄伟认为,新基建是一个新的时代命题,这对疫情之后,中国经济发展信心的提升,以及未来科技实力竞争力的提升都有重要意义。 寻医先问诊 通过这次疫情的爆发,智能语音系统市场看似火爆,铺展面很广,但从场景落地情况来看,也正处于一段“瓶颈期”。 越来越多的人已经开始使用智能语音产品,但是大部分人低估了智能语音技术对人们生活的价值和意义,只是认为有的话挺好,没有的话也可以。黄伟指出,此前资本市场过度追捧图像识别技术的优越性,而图像识别本质上只是实现了人的ID化,依旧停留在感知阶段,还不到认知水平。 所以我们需要正视AI技术的真正价值,并去客观分析和评判。 首先我们要理解,这段“瓶颈期”是什么?这段“瓶颈期”并不是指技术的瓶颈期,只是在突破行业界限后存在的沟通难点,也是开发者和技术提供者与用户的“磨合期”。 高始兴指出:“技术的瓶颈期一直都有。”首先,学术角度来看,从技术研发上的突破,再到商业的落地,本身就有很长的周期。其次,中国AI的快速发展期是从2015年开始。从2015到2017年,大家一直在追求技术的突破,在2018年之后,大家关注更多的,是场景落地。 而在场景落地期间,最大的“瓶颈”也不在于技术,而是技术与应用实践的桥梁。因为无法估算AI本身的市场价值,AI需要跟所有的产业进行结合,然而不同的行业之间有信息窗口期。 人工智能不是高高在上的技术,用户的需求也不是被创造出来,它是天然存在,只是人工智能可以在某一阶段、某一点上提高了效率、减轻了人员负担。 例如语音电梯场景的落地,思必驰此前利用语音模组可以在电梯里实现语音交互,但是对电梯行业而言,第一,它是工业,工业有自己的设施标准和认证情况;第二,用户和厂商并不认为在电梯里有利用语音控制的必要。这是由于双方没有打通智能语音的沟通桥梁,而这次疫情使大家基于当前需求,快速理解了人工智能。 同样,深耕在企业服务和公共孵化领域的灵伴科技,也发现了智能语音价值展现的“瓶颈期”。 灵伴科技COO胡军告诉亿欧:“在疫情发生之前,B端市场和政府部门对智能语音服务需求一直在增加。由于疫情影响,阻碍了人员的聚集和面对面的沟通,更导致了智能语音/文本交互方案的需求增多。” 从需求端来看,客户对智能语音有了一定的重视,但是人工智能在该场景下的价值并没有获得市场的广泛认知,尤其是信息化程度偏低的企业客户。这就意味着市场从认识智能语音的价值到落地应用,还有较长的路。其次,对于初创企业,存在较高的客户沟通成本和市场教育成本,而从技术层面上看,难点挑战并不大。 多融合与探索并进 所有伟大的改变都是从交互习惯改变开始。例如第一代计算机只能通过键盘进行人机互动;到九十年代初,开始使用windows 图形界面,用鼠标来点击;自从苹果手机使用了触摸屏,“触控”成了智能手机的核心互动方式。直到今天,我们发现,触摸并不是必须的,通过语音控制也可以。因此,智能语音交互场景的新机会值得科技企业们继续思考。 黄伟告诉亿欧:“对于语音行业,接下来在国民经济的应用领域里面,会得到越来越广的应用。”例如在医疗领域,云知声已经达到了认知的阶段。除了利用语音识别系统可以让医疗设备快速完成病例的录入,利用医学的知识图谱,可以让机器更为专业地帮助医生主动识别并发现病例的问题,对录入结果作出准确的分析和判断。 当前智能语音行业正处于协同发展的阶段,对于智能语音场景的落地预期并没有一个标准线,它需要逐步渗透。从AI的发展速度上看,车载、家居的智能场景落地也是最近四、五年的时间发展起来,2015年以后,不论是市场的火热度,或者是互联网巨头、大部分产品应用公司,都入了局。 在疫情阶段,国内所有的行业都有受影响,尤其是传统行业和实体业。海底捞停业15天损失了大致11亿,年入50亿的西贝莜面村也称“撑不过3个月”。还有传统眼镜行业,在疫情期间2万多家门店停业,4000多家工厂关门,单个品牌春节期间损失可能在5000万左右。 相对于传统行业和线下实体业的“哀鸿遍野”,AI技术服务类公司,受到的直接影响辐射面积并不大。 高始兴告诉亿欧,从思必驰自身来说,受到此次疫情影响的传统行业和实体业正是思必驰的客户群体,从短期来看,在项目合作上会受到一定影响,但是从长远来看,整个AI的渗透和落地,以及场景化的应用是有促进作用。 例如,思必驰DUI开放平台,目前已经成为底层技术研发平台,思必驰的智能语音识别系统就是基于该平台来实现,在业务领域上,已经覆盖到家居、AIoT、智能电子和穿戴设备、车载等方面。 思必驰近些年主要在AIoT领域进行拓展和布局,从2018年开始,也逐渐发力在线上企业服务领域。此前,思必驰的个人开发者和厂商加入语音交互功能,主要落地在私人空间的个人应用产品中。而对于公共基层设施的相关场景落地需求,是思必驰正在探索的方向。 为何中国能够高效控制住疫情的发展,一部分原因是政府的有力管控,另一部分原因是在城市管理的智能化方面,中国要比欧洲强很多。黄伟提到:“在新基建中,一定包含了对整个城市智能化的提升,所以智慧教育、智慧交通、智慧医疗、智慧社区等方面,都会是下一个机会。” 而对于未来的发展,肯定不能依靠过去“大水漫灌式”的旧基建,那样会导致非常严重的产能过剩,所以我们一定要通过新基建的方式,来提升经济,和中国在科技领域的某些短板。同样,新基建更多是在发挥着底层通用能力的工具作用,在未来的行业发展上,务必向多融合的方向去走。 原文章作者:亿欧,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于6 天前
    最后回复 庇细 6 天前
    1146 0

快速发帖

还可输入 80 个字符
您需要登录后才可以发帖 登录 | 立即注册

本版积分规则

在本IOT圈子中寻找帖子
IOT圈子地址
[复制]
Weiot(威腾网)是一家以原创内容、高端活动与全产业渠道为核心的垂直类物联网产业媒体。我们关注新兴创新的物联网领域,提供有价值的报道和服务,连接物联网创业者和各种渠道资源,助力物联网产业化升级。
15201069869
关注我们
  • 访问移动手机版
  • 官方微信公众号

© 2014-2020 Weiot.NET 威腾网 北京微物联信息技术有限公司 ( 京ICP备20000381号 )|网站地图