请选择 进入手机版 | 继续访问电脑版
专注物联网产业服务
微信二维码
威腾网服务号
游客您好
第三方账号登陆
  • 点击联系客服

    在线时间:8:00-16:00

    客服电话

    17600611919

    电子邮件

    online@weiot.net
  • 威腾网服务号

    随时掌握企业动态

  • 扫描二维码

    关注威腾小程序

智能语音交互
智能语音交互
智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。典型的应用场景—语音助手。自从iPhone 4S推出SIRI后,智能语音交互应用得到飞速发展。中文典型的智能语音交互应用如:虫洞语音助手、讯飞语点已得到越来越多的用户认可。
  • 专利图佐证 索尼PS5手柄很可能配备语音交互用麦克风
    根据索尼最近的一项专利,PS5的手柄也就是Dual Shock5配备内置语音交互功能基本是没跑了。新传出的专利草图显示除了触摸版以外,手柄下方还配备麦克风通讯功能,或为接收语音命令设计。 对于索尼这样的大厂来说,为一些永远不得见天日的想法申请专利也有可能。但是早在今年夏季索尼就提交了专门的虚拟语音助手专利申请,另外如今许多新的电视遥控器都已经拥有类似的功能,再考虑到PS4已经能够通过PlayStation Camera和其他设备麦克风进行一定程度的语音控制。索尼为PS5添加出厂自带的语音交互功能可能性很大。 上图的专利说明左侧的“マイク入力部”即为“麦克风输入单元”,直接输入至控制单元进行反馈,表达的意思十分直白。 索尼次世代主机PS5将于2020年末假期发售,不少人预测官方会选择在今年2月正式公布主机的造型、配置等信息。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于3 天前
    最后回复 躬甍 3 天前
    2606 0
  • 声智科技发布AI语音教材,展示如何便捷、高效地实践智能语音交互
    近日,声智科技发布AI语音教材《智能语音开发——从入门到实战》,现已在京东、当当和新华书店全面上线。本书是面向智能语音专业学生、初学者和开发爱好者的入门书籍,基于声智科技SoundAI Azero智能操作系统,在详细介绍智能语音交互开发过程基础上,通过SoundPi 智能开发套件,向初学者生动展示如何便捷、高效地实践智能语音交互。而且,面对不同需求的企业开发者,也可提供便捷开发的完整解决方案,助力传统行业的智能化升级。 智能语音市场正在蓬勃兴起,并不断高速增长。根据赛迪《2019-2021年中国智能语音市场预测与展望数据》预计,未来三年智能语音市场规模仍将保持25%以上的增长速度,到2021年中国智能语音市场规模将达到194.8亿元。在此背景下,不少大学生、开发者纷纷转型投入到智能语音开发事业中。然而专业技术知识门槛高,如仅仅声学算法就包括了声源定位、回声抵消、噪声消除、混响抑制、波束形成、多人分离、语音增强等多方面,同时初学者又必须考虑到时间成本和开发成本投入,因此一开始就面临重重困难。 深刻洞察广大开发者的痛点和难点,声智科技推出智能语音交互开发的“黄金组合”,即SoundAI Azero智能操作系统、SoundPi Cube智能开发魔盒和《智能语音开发——从入门到实战》,助力初级开发者快速入门,通过教材学习入门,再通过使用搭载Azero智能系统的SoundPi Cube智能开发魔盒进行实操应用,省时省心,可以更加高效地完成智能语音交互开发工作。 开发者转型和入门首选:开放的SoundAI Azero SoundAI Azero是声智科技基于全球领先的声与智能融合技术为企业、个人和第三方组织开放的多模态交互智能操作系统,经过了千亿次人机交互真实场景的规模验证,可为家居、办公、车载、会议、可穿戴等20+场景和设备提供高效的人机交互和智能决策能力。Azero默认集成了信息查询、内容服务、IOT控制等200+项常用技能与服务,同时提供简单好用的语音技能开发工具和Turnkey智能产品软硬件方案,可以极大降低AI行业应用的开发难度和使用门槛,快速满足不同用户和行业群体的个性化需求。 基于Azero,行业开发者可以迅速理解如何完成内容服务集成和设备接入,从而构建有竞争力的产品以及完成价值变现。SoundAI Azero智能操作系统具有智能交互技术领先、扩展自由、技能内容丰富、部署快速等优势,采用全球顶级的全链条算法及高度开放架构,内置与国内顶级产品技术一致的语音唤醒、语音识别、声学阵列、自然语义理解、语音合成、声纹识别、情绪识别、语音搜索、知识图谱、数据挖掘、实时音视频通信等技术。其最大的优势在于其开放性,高度可拓展为开发者带来更便捷的接入可能。Azero支持包括RTOS、Android、Linux、QNX等在内的多种底层操作系统,可适用于包括智能音箱、智能面板、智能开关等在内的多种产品设备。 同时,SoundAI Azero智能操作系统具有高度可拓展性、支持第三方NLP、可定义唤醒词、多种可视化界面、兼容Alexa协议等特点,可充分满足客户多样化需求。一款新产品,2周即可完成原型验证,3个月即可实现量产出货,极大缩短客户开发周期。 迈出智能语音开发重要一步:SoundPi开发系列 开发者的时间、精力有限,为其提供更简单、更高效的开发工具就显得尤为重要。声智科技推出的SoundPi Cube,就是为了更好满足开发者低成本开发、快速集成落地需求。SoundPiCube 为个人开发者和企业提供便捷高效的开发入口,具有软硬一体化、接口丰富、即开即用、可适配多种智能化场景等特点,既使得开发简单快捷,又满足了真实场景应用中的性能要求,高效解决问题。 SoundPi Cube是一套完整的远场智能语音开发套件,支持快捷二次开发,开放多种硬件接口,支持IOT控制、信息查询等多种功能服务,是开发者体验智能、验证产品、扩展应用的最佳选择。 SoundPi Cube基于ARM A53四核架构,采用2GB+16GB存储,可以运行完整的Android系统,集成6麦高信噪比麦克风阵列并搭配完整音腔结构,开发者即时可用。搭载声智科技SoundAI Azero智能操作系统,集成波束形成、声源测向、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、语义理解、语音合成、自然语言处理等核心算法,可助力开发者快速实现顺畅自然的智能语音交互体验。 当前,随着全球新一轮科技革命和产业变革加速,更多的用户新体验等待探索开发。通过开放的操作系统助力产业智能化发展和AI人才培养,让更多的开发者、合作伙伴可以快捷高效地获得AI能力。声智科技期待与更多的开发者伙伴携手共建智能新生态,推动行业发展,为用户带来更美好、更极致的体验。 原文章作者:数智网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 屈凝雨 4 天前
    2358 0
  • 工信部“新一代AI产业创新重点任务揭榜名单”出炉 搜狗智能语音交互系统上榜
    1月19日,工信部“新一代人工智能产业创新重点任务入围揭榜单位”正式揭晓。经过多方评议,搜狗自主研发的智能语音交互系统--“搜狗知音引擎”成功入选。作为揭榜单位,搜狗公司获得了由工信部颁发的揭榜证书,搜狗AI交互首席科学家陈伟出席活动并登台演讲。 “新一代人工智能产业创新重点任务揭榜工作”以技术、产品与服务为入围标准,旨在征集并遴选一批掌握人工智能关键核心技术、创新能力强、发展潜力大的企业与科研机构,培育人工智能发展的主力军。对于这一批具有行业创新标杆意义的揭榜单位,国家工信部将在相关配套资金、项目等方面给予重点支持,促进我国人工智能产业和实体经济深度融合,打造特色鲜明、优势互补的人工智能产业集群。 针对人工智能行业不同领域,最终遴选出的揭榜单位均不超过5家,竞争十分激烈,最终搜狗凭借在智能语音交互领域的技术优势,搜狗知音引擎在众多申报项目中脱颖而出,成为国家重点扶持的人工智能发展主力军。 搜狗知音引擎,是在搜狗“自然交互+知识计算”的人工智能战略下,自主研发的新一代智能语音交互系统,知音引擎集成了搜狗领先的语音识别、对话问答、机器翻译、语音合成等多项核心技术,向用户提供人机交互的完整解决方案。 具体而言,在语音识别领域,搜狗输入法日均语音请求较一年前增长67%,峰值达8.3亿次,稳居国内最大的语音应用。目前可支持识别英日韩法西俄等十余种外语和粤语、四川话等十余种方言,语音识别准确率和响应速度均在行业领先,19年大卖的搜狗AI录音笔颠覆了传统录音笔行业,充分展现了搜狗领先行业的软硬件结合的远场语音识别服务能力。 在语义理解领域,搜狗荣获2018年NLPCC学术会议测评任务语义理解项目第一、2017年国际NTCIR评测比赛短文本对话任务全球第一等多项荣誉。 在对话问答领域,搜狗先后在NTCIR-STC2短文本对话任务,CoQA对话式问答等国际公开评测中夺得冠军,在人机对话和智能问答方面均达到业内最高水平。 在机器翻译领域,搜狗研发的神经机器翻译系统先后在2017年国际顶级机器翻译比赛WMT、2018年国际顶级口语机器翻译评测大赛IWSLT中夺得冠军,并为搜狗同传、搜狗输入法、搜狗搜索、搜狗智能硬件等多款产品赋能,助力用户跨语言交流。 在语音合成领域,搜狗在国际顶级大赛暴风雪挑战赛中获得两项子任务全球第一。此外,搜狗语音合成技术支持中英日韩等多个语种,男、女、童等数十种音色的合成,合成效果达到国际领先水平。 得益于搜狗在语音交互领域的研发优势与技术积累,搜狗知音引擎真正实现了能听会说,能理解会思考,在稳定接入搜狗自有产品体系如搜狗输入法、搜狗AI硬件、搜狗搜索、搜狗地图、搜狗百科等产品之外,还在车载、智能家居、可穿戴设备等多样化应用场景广泛落地,与小米、海尔、创维、魅族、蔚来等多家企业合作,为行业和个人用户提供优质可靠的语音交互服务。 在“人工智能产业创新重点任务揭榜单位工作部署会”上,陈伟发言表示:“入围新一代人工智能产业创新重点任务揭榜工作,既是对于搜狗现有技术能力的认可,也是对我们今后技术提升的鞭策”。未来搜狗会按照国家《促进新一代人工智能产业发展三年行动计划(2018-2020)》部署,从深入研究核心关键技术出发,全面提高自身创新能力,带动中国智能语音交互技术占据国际竞争优势。 可以预见的是,搜狗知音引擎在信息获取、理解和表达核心技术上的不断突破,会加速推动人工智能技术和场景的深度融合。未来在智能家居、车载、可穿戴等多样的IOT场景中搜狗知音引擎会得到广泛应用,让AI赋能于人,实现万物语音互联的智慧生活。 原文章作者:砍柴网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 姘违 4 天前
    1386 0
  • PS5或内置语音麦克风!无耳机语音交互成为可能
    随着CES上PS5相关消息的官宣,越来越多关于索尼PS5主机的消息不断爆出了。 近日据外媒报道,在著名的Reddit论坛上有网友再次发现了一些关于索尼PS5的专利,这次是关于PS5手柄将会内置语音交互麦克风。 这项专利其实很早之前就被SIE申请过,但如今才在专利网站上可被人查看。而这项专利显示PS5手柄含内置麦克风,可用于语音指令、无耳机语音交互等功能。 整个专利报告是日文形式的,但还是提到了用于语音命令的麦克风。上图的专利说明左侧的“マイク入力部”即为“麦克风输入单元”,直接输入至控制单元进行反馈,表达的意思十分直白。 对于索尼这样的大厂来说,为一些永远不得见天日的想法申请专利也有可能。但是早在今年夏季索尼就提交了专门的虚拟语音助手专利申请,另外如今许多新的电视遥控器都已经拥有类似的功能,再考虑到PS4已经能够通过PlayStation Camera和其他设备麦克风进行一定程度的语音控制。索尼为PS5添加出厂自带的语音交互功能可能性很大。 【ZOL客户端下载】看最新科技资讯,APP市场搜索“中关村在线”,客户端阅读体验更好。 (7371853) 原文章作者:中关村在线,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于4 天前
    最后回复 抹截 4 天前
    3208 0
  • 揭秘“语音交互”背后的AI硬核黑科技
    授权转载于51CTO技术栈(ID:blog51cto) 第 6 期出席《大咖来了》直播栏目的嘉宾是百度 DuerOS 布道师曹洪伟,进行了主题为《面向交互的人工智能》的分享。 主要讲解了语音交互中用到的 AI 技术,如 ASR、NLU、NLG、TTS 等,以及基于这些细分技术构建的面向对话式的人工智能操作系统——DuerOS。 通过本次分享大家可以基本上掌握如何在智能语音交互平台上开发应用,进一步体会智能语音如何服务我们的生活。 1 语音使人机交互更加便捷 什么是交互? 交互是指 A 和 B 之间的一系列动作和行为,语出《京氏易传·震》:“震分阴阳,交互用事”。 那什么是人机交互呢? 人机交互是一门研究系统与用户之间的互动关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。 人机交互重点研究用户与计算机之间的接口,既包括人类与计算机的交互方式,也包括设计技术,使人类以新颖的方式与计算机交互。人机交互与人机界面是两个有着紧密联系而又不尽相同的概念。 从键盘+鼠标到使用触摸屏,再到语音交互,人机交互在不断地演进,由面向机器的人机交互,演变为面向用户自身的交互。 语音是低成本的沟通手段和工具,为我们带来很大的便利。 语音交互的优势在于: 其一是速度,每分钟可以说 120 到 150 个字。其二是释放双手,做饭时通过语音可以完成一些期望做的事。其三是直觉性,语言是人类的天赋,也是人类交际沟通的自然手段。其四是同理心,语音中包含了语气、音量、语调和语速,这些特征传达了大量的信息。 如今,智能语音交互正在为我们服务,背后有一整套完整的技术和流程,从语音唤醒到自动语音识别,再到自然语言理解,最终通过自然语言生成以及语音合成技术形成反馈,整套流程背后又有很多细分的 AI 技术在支持,如对话管理、深度学习,DNN、CNN、NLP、TTS 等。 面对涉及如此之广的 AI 技术, 我们怎样才能应用到工作和生活之中呢? 这和我们有了计算机之后,如何使用计算机是类似的。计算机上的操作系统及其 API 为程序员们打开了计算机世界的大门。 面向智能交互的 AI 系统, 我们同样需要一个类似的操作系统,才能方便而且高效地构建我们的人工智能交互应用。 2 面向语音交互的 DuerOS 操作系统 百度的 DuerOS 是一个面向语音交互的对话式人工智能操作系统,在包含了语音交互的整套流程的同时,还提供开放能力平台,如 SDK、工具、编程接口和设备等。 DuerOS 操作系统有三个层面,分别是智能设备开放平台(应用层)、对话核心系统(核心层)和技能开放平台(能力层)。 下面我们进一步从基于 DuerOS 的智能语音设备、智能语音设备的工作原理、智能语音交互的交互流程和智能语音应用的开发流程等方面了解 DuerOS 操作系统。 了解一个操作系统主要是看有哪些语音设备,基于这些设备才能进行具体的应用开放,DuerOS 的智能语音设备有很多,DuerOS 广泛适用于音箱、电视、冰箱、手机、机器人、车载、可穿戴、玩具等多种场景及设备,这些智能语音设备的工作原理是怎样的呢? 相比传统设备,智能语音设备是面向交互的,通过语音、触屏进行输入,利用 TTS、麦克风、信号处理等手段,把本地能力转移到云端,再利用云端 ASR、TTS、NLU、NLG 等具体的 AI 技术实现智能语音,最后把业务引擎、业务资源和技能服务进行融合,这样就可以通过语音完成一系列服务。 技能开放平台包含很多层次,如底层基础能力、BOT-SDK、配置服务、协议开放、平台开放、周边工具等。下面介绍一下智能语音交互应用的交互流程。 这里,我们以询问天气意图为例,当用户发出语音指令后,智能音箱本地做用户唤醒词识别,然后通过音箱把语音流传到 DuerOS 平台,DuerOS 平台进行语音识别、语义理解、发送结构化数据给技能服务器。 技能服务器处理请求,向 DuerOS 平台返回文本或可视化的结果,DuerOS 平台收到后,TTS 服务器处理返回的文本,将播报流发送给智能音箱,如果是有屏音箱的话,也可将可视化结果在设备上进行展示。 那么,我们如何在 DuerOS 开发一个智能语音交互的应用呢? 智能语音交互应用的开发流程一般分为六个步骤,分别是注册、创建技能、建立交互模型、编写代码部署、调试与验证和技能上线商用,如下,为具体步骤图解。 第一步,访问注册。 访问 https://dueros.baidu.com/dbp, 注册成为 DuerOS 的开发者。 第二步,创建技能。 和我们在 Android 或 iOS 上创建应用是类似的。 进入技能控制台,选择“从头开始”创建自定义技能。技能名称是 2~50 个字符,调用名称是 2~15 个字符。 调用名称是技能服务的入口,打开+调用名称。不建议使用生僻词汇、中英文混合及数字与汉字混合。技能创建后会生成一个技能 ID,是技能服务在 DuerOS 系统中的唯一标识。 第三步,建立交互模型。 这可能是智能语音应用与 App,小程序,Web 之类应用的较大的不同点。 用户询问的核心在这里称为意图,建立交互模型就是创建多种用户意图的过程。 意图的标识就相当于具体事件的编号。交互模型的建立实际上是一种面向接口的设计方式,明确的交互的意图就是在一定程度上确定了技能服务的功能。 第四步,编写代码并部署。 DuerOS 提供了高效安全的百度云服务免费使用,开放平台的在线编辑器提供了对 Python 和 Node 的语言支持,编码主要是对交互模型中的意图进行匹配和处理。 在线编辑器中的代码将自动部署在百度云的 CFC,CFC 是百度云 FaaS 无服务架构的具体应用。 当然,技能代码的编写还可以通过 Java,PHP 等其他语言进行编写,也可以部署在自己的服务器或者其他云服务上。 第五步,对技能服务进行测试与验证。 DuerOS 开放平台提供了两种测试方式:模拟器和真机调试。在真机调试时,要保证技能开发账号和设备登录账号一致,对设备说“开启技能调试模式”即开启了“技能调试模式”功能,需要注意的是同一时间仅支持一个技能测试。 第六部,技能应用的上线商用。 类比来看,发布上线与 App 在安卓市场或者苹果商店上的上线发布过程是类似的。 至此,我们可以基于 DuerOS 的开放平台开发符合用户需求的各种智能语音交互应用。 同时, DuerOS 还提供了零编程的智能语音交互应用实现方式。应用的种类丰富多彩,可以为我们的生活带来更多的便利和乐趣! 3 基于智能语音交互服务的一天 从早上通过音箱叫你起床,通过搭载 DuerOS 的车机导航出发上班,用小度助手去安排当日工作,工作中小度助手可以提醒休息,孩子可以用搭载 DuerOS 的设备打电话、看电视和听故事。 随着交互形式的变化,交互技术发展到了今天的智能语音时代,在智能语音服务中可以直接应用到各种人工智能技术,可以不用深入关注具体的 NLU、NLG 等具体 AI 技术,只要使用基于 DuerOS 这样对话式的 AI 开放平台,就可以完成面向语音交互的多种服务。 原文章作者:中国智慧城市,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于5 天前
    最后回复 衮代 5 天前
    2373 1
  • 语音交互革新,全新H6铂金版能否让你“张口就来”?
    2011年,哈弗H6在长城汽车天津工厂正式上市,时至今日哈弗H6已经累计79个月摘得国内SUV市场销冠,在国内SUV市场有着绝对的领先地位。不仅如此,截至到2019年哈弗H6全球总销量已突破300万辆,取得如此优异的成绩,与其过硬的产品实力密不可分。自上市以来,哈弗H6早已在国人心中留下了“质量过硬,品质优良”的印象,一直被消费者和各大媒体称为“国民神车”。去年成都车展推出的全新哈弗H6铂金版,不仅丰富了哈弗H6的产品线,还在智能化方面有了新的进展。 前瞻功能进驻,哈弗是否能驾驭车机顽固“痛点”? 在完善了硬件设备后,软件应用的加入能协助用户更便利地使用产品,好比你买台体重秤,包装盒里已经不提供说明书,所有的内容和疑问都可以在那串二维码的软件里找到答案,“软硬结合”就是未来产品的“最佳形态”。而2020年的主题无疑就是万众期待的5G网络和AI应用,哈弗前瞻性地为全新H6铂金版加入了一套名为“Hi-Life”的智能网联系统。当前智能网联汽车,已经成为国内汽车产业创新的热点和未来发展方向,而在我看来哈弗的这套Hi-Life智能网联系统将成为这一领域的新代表。 众所周知,国内外的汽车品牌都曾推出过不少所谓“智能”的车机系统,但是无一例外,不好用、不管用、不能用等印象就是笔者的亲身经历,或者你身边的朋友都有这样的经历:“能用手的不动口,不是不想动,只怪车机听不懂。”或许有些无奈,但的确是广大车主的用车日常,这也侧面映射出主机厂研发一套“听懂人话”的车机系统有多么困难。而笔者在体验完全新 H6(参数|图片)铂金版上这套Hi-Life系统之后,“听懂人话”这个痛点仿佛是有点眉目了。 “人、车、生活”,智能系统蓄势待发 这套Hi-Life系统是 哈弗(参数|图片)与网络龙头百度联合打造,是哈弗多媒体系统有史以来最大的一次革新,从UI设计,交互逻辑等都进行了深度优化,并允许用户在屏幕内访问网页、使用APP、观看视频,当然还增强了语音交互能力,也就是刚刚所提及的“听懂人话”了。 在行驶过程中,当你想要听邓紫棋的新歌专辑,选择导航路线,转换吸烟模式等操作时,可以一次性将想要做与Hi-Life进行语音对话,这个“智能管家”会依次实现所有语音指令。 可能你会觉得这些对话太平常了,但你要知道,与笔者对答的不是餐厅服务员,也不是副驾驶的女朋友,而是“只闻其声不见其人”的Hi-Life系统。我们一层一层来看Hi-Life系统的智能优势。首先我下的第一个指令是“邓紫棋的新专辑”, Hi-Life系统则明显“听懂了”我的意思,与此同时包含导航和餐厅需求的两个指令都成功识别执行,之后的对答里Hi-Life的逻辑思维依旧保持正常运作,这是过百万的特斯拉上都不能提供的交互体验。 如果你问笔者全新H6铂金版最大的亮点是什么?我会毫不犹豫地回答你:Hi-Life系统。看似简单的对答背后都是技术和时间的堆叠,每一个控制层级的调度都非常考验厂商的本地化功力。 而说到本地化,Hi-Life系统不仅提供上面这些功能,还可以通过Hi-Life系统订机票、电影票,甚至直接在屏幕上浏览小红书等优质应用,而且非爱奇艺会员也可以无广告观看爱奇艺中的任何视频,也算是给全新H6铂金版车主们的福利咯。而笔者最看重的本地化功能则是“智慧停车场”,这个应用能搜索目的地附近停车场信息,包含营业时间、费用、空余车位、车位总数、免费时长等关键信息,其中的免费时长对消费者有着极大的帮助。 Hi-Life系统成功串联起了“人、车、生活”的生态结构,从移动端到车机端的无缝衔接,再到车机端逐步取代移动端,所以Hi-Life系统成功把手机和手机支架“干掉了”。哈弗这一步棋果断而坚定,不拿试验品挂上“智能”名衔忽悠消费者,Hi-Life系统“名副其实”的交互体验一定会对行业起到正面影响。 解决消费者痛点,哈弗已独占鳌头 很多朋友都知道苹果手机的最大优势不是硬件,而是强大而无解的生态,那“碾压”同业的生态系统已经把无数消费者“绑架”。在同行还在研究怎么样提高机械素质和稳定性的时候,哈弗已经拓展开一个全新的用车维度,Hi-Life系统高效的交互体验让消费者“感受不到科技的存在”,这也是科技以人为本的核心价值,是难度最高的科技体验。 质量过硬的全新H6铂金版武装上体验甚佳的Hi-Life智能网联系统,2020年哈弗H6还将继续领衔十万元SUV,笔者已经能够预见第80、第90甚至第100个月的中国SUV销冠,还是哈弗H6。 原文章作者:暴走汽车,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于6 天前
    最后回复 cw2vj9uj17 6 天前
    2871 0
  • 5G爆发前夜,一场关于车载语音交互的纷争
    5G的商用推进,像是给全球智能化产业发展按下了加速键,各行业摩拳擦掌,寄以搭乘这趟快车道,迅速抢占未来的市场,也让“软件定义汽车”的概念,逐渐被众人所熟知。 随着科技的不断发展,汽车的传统机械属性逐渐被颠覆,屏幕变得越来越大,车联网系统变得越发复杂,车开始被赋予了越来越多的功能。但也让更多人意识到,无论是按键还是触屏都变的不再安全,而语音交互便为汽车使用场景下提供了切实可行的解决方案。 于是,作为车联网的核心技术之一,车载语音交互的争夺战逐渐进入白热化状态。 BAT技术强势VS车企主权回收 不可否认,数字化的浪潮正裹挟着一切颠覆传统产业过往的行径,重新书写未来的竞争格局,汽车产业也同样如此。时至今日,汽车产业边界正在一点点被模糊,BAT等互联网科技公司强势切入这场混战。 2017年7月5日召开的百度AI开发者大会上,其正式对外发布DuerOS开放平台,该平台包括智能设备开放平台和技能开放平台,支撑这两个平台的则是DuerOS对话核心系统,其应用领域之一即是车载交互。发布会当天,车联网供应商博泰集团宣布与DuerOS合作,让“AI赋能汽车”。 同年11月,腾讯宣布推出腾讯车联“AI in Car”系统,以腾讯语音助手为车载语音输出控制能力,建立车载交互中心,并与广汽、长安、吉利、比亚迪、东风柳汽等主机厂达成战略合作,用腾讯生态体系下的内容浇灌长大。 而很早以前便与上汽合作过的阿里,在将YunOS升级为AliOS之后,更是致力于打造国产车载OS,目前也在不断孵化自己的语音交互系统。 BAT的入局,以其强悍的资金、云平台与生态搭建实力,或兼并或建立合作伙伴关系,不断吸收市场中有实力的语音交互厂商,逐渐壮大自身生态体系,从而一统江湖。 但与此同时,据翌擎科技CEO陆维琦分析,“车联网技术正从外围附加服务逐步转变为车企的核心能力,成为车企数字化能力的一种基础设施。他们开始希望利用车联网进行数字化改革来直达C端用户、采集汽车数据”。 整车企业的车联网主权意识正在觉醒,且正在快速布局。 2016年,由吉利集团战略投资、独立运营的科技生态企业亿咖通正式成立,吉利汽车智能网联系统GKUI便出自这个公司。 2018年9月,亿咖通与物联网人工智能科技公司云知声宣布共同出资成立一家合资公司——芯智科技,双方间的合作基于云知声的语音识别、语音合成、声纹识别、语义理解以及后续不断拓展的图像等AI技术,融合亿咖通科技在车载云平台、内容和车载产品等方面的设计经验,开展面向汽车前装市场的车规级 AI 芯片研发。 而这家合资公司的首款,也是业界首款车规级全栈语音 AI 芯片正式于日前流片成功。 5G时代来临,车载离线语音交互会否成为趋势? 就目前来看,语音交互更多依托于云端算力处理和反馈,而云到端、云到云到端之间的数据传输在无形中产生了更多的信息延迟,加之受限于4G时代通信技术的时延、可靠性均不稳定,智能语音AI助理的对话反馈、操作速度时常会受到影响,造成听不懂、不明白、答非所问的情况。 这就意味着,一边是BAT与整车企业“浴血奋战”,一边却是用户丧失信心后的“拒绝沟通”,用户的需求与车联网产品之间的鸿沟,成为制约了车联网行业行进难的重要因素之一。 于是,可以满足车联网所需的低延时、高计算量、高效率、高可靠以及细致精准的5G,便成为了众望所归。 前景是光明的,但脚下的路该如何走?是奋力向前奔跑,还是兵分两路稳步向前? “面对时代的变迁,我们需要冷静”,芯智科技产品副总裁孙晓欣日前在接受采访时表示,“正如我国在2013年末进入4G时代,但真正的产业爆发却发生在2016-2017年间,5G必然会加速,但是否如我们所想般快,还需要打个问号”。 正因如此,“离线”在智能家居领域快速普及,而芯智科技,则致力于打造可以满足车规级的离线语音交互芯片。 据官方资料显示,此次发布的AI 芯片一款集音频信号处理模块、语音识别模块、离线分类引擎,自然语言处理模块、离在线仲裁模块、TTS引擎、离线推理引擎于一体的全栈语音AI芯片。为了更好的应用于汽车领域,该芯片还垂直打通了汽车的数据,增强针对汽车场景的本地逻辑推理等边缘计算的能力。 “未来将会有70%以上的车联网功能在本地解决,包括导航、电话、车控、空调、提醒以及常用地天气、航班、火车票信息等等”,孙晓欣表示,“同时,这款芯片支持全球32+语音/方言识别,其语音深度学习处理速度较主流主控芯片提升了64倍,语音响应速度则提升了20%-50%”。 可以让车在任何地方保证交互能力实时在线,并不断提升车辆的推理能力,让车辆更懂用户。并可以释放主控算力20%-35%的算力资源,以提升系统流畅性或者支持更多高算力功能。 未来,这款芯片也将率先搭载在吉利汽车上,并将在今年第一季度上车验证,计划于年底前量产。此后,芯智科技也将陆续向其他算法厂商所开放,提供芯片上的整体车载交互代码开源,以支持更多云平台和内容服务的自由接入。 盖世结语:智能语音交互技术不断创新进步,众多的企业投身其中,无数成果不断落地普及,但万亿级的汽车市场却才刚刚起步,这场混战尚未决出胜负。 “离线”,是芯智科技对于这一领域的探索,更是亿咖通,甚至是吉利汽车在应对这一混战的重要“筹码”。其希望可以借此打通云到端的局限,也打通吉利汽车与155万甚至更多的GUKI用户之间的阻隔,并吸引更多消费者的青睐,从而“杀”出重围。 短期内,我们或难断定车载离线语音交互会否成为未来发展主流趋势,但或许我们可以一同来期待,毕竟,未来正在快速到来。 原文章作者:盖世汽车,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于6 天前
    最后回复 得曜 6 天前
    1884 0
  • 外媒曝PS5或内置语音交互麦克风!可无耳机语音交互
    最近据外媒报道,Reddit论坛上又有网友发现了一些索尼关于PS5的专利,这次是关于PS5手柄将会内置语音交互麦克风。 这项专利其实很早之前就被SIE申请过,但如今才在专利网站上可被人查看。而这项专利显示PS5手柄含内置麦克风,可用于语音指令、无耳机语音交互等功能。 整个专利报告是日文形式的,但还是提到了用于语音命令的麦克风。上图的专利说明左侧的“マイク入力部”即为“麦克风输入单元”,直接输入至控制单元进行反馈,表达的意思十分直白。 对于索尼这样的大厂来说,为一些永远不得见天日的想法申请专利也有可能。但是早在今年夏季索尼就提交了专门的虚拟语音助手专利申请,另外如今许多新的电视遥控器都已经拥有类似的功能,再考虑到PS4已经能够通过PlayStation Camera和其他设备麦克风进行一定程度的语音控制。索尼为PS5添加出厂自带的语音交互功能可能性很大。 原文章作者:哈都肯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于7 天前
    最后回复 脉肄 7 天前
    3329 0
  • 语音交互实例:从切换播放模式细节想到的
    这一段项目时间不是很紧张,比较有时间去探讨一些细节的问题,有些东西可以做有些东西可以不做,去探究背后的原因是一件很有趣的事情。 一、简单介绍VUI 想必大家对于语音交互并不是很了解,而车载方面的语音交互更是陌生。这里我先来科普下大背景,至于对这个方面比较感兴趣的可以查找一下资料,想必其他的文章会很详细的介绍理论。这里我先讨论在实际应用当中的需求探索。 首先语音交互是从交互式语音应答系统(Interactive Voice Response,IVR)而来,它是通过电话来执行任务,和10086不同的是,它能够识别人们说的话,由于擅长处理带有大量信息的复杂句子,应用场景比较广泛。 后面智能手机高速发展,于是诞生了VUI(Voice User Interactive ),像Siri、Cortana都是比较典型的应用,语音交互一直被称作“最为自然的交互入口”,优点和缺点都很明显。 车载场景的语音交互,有个很明显的优势:无需司机分心操作,直接语音指令即可达到想要的目的。所以在车内使用语音交互,任务型需求会占大多数。 二、实际应用中遇到的问题 今天看到之前的产品文档中有这样一个设计: 当前的设计都由于技术的限制,不支持的说法不能进行下一轮的对话,所以这里在反馈完毕后直接退出语音。并没有什么大问题,很多车机语音交互直接提示不支持的说法,后面的说法提示都没有。但这个方案对于用户来讲,依旧大大打击了他们使用语音的积极性,这样的设计至少有下面几点不是很合适的点: 在人工智能不是很智能的情况下,尽量理解用户意图并允许用户继续交谈。功能点设计要考虑可发现性,对于语音交互,看不到的交互方式更要提高它的可发现性。已知的对话原则中有一点:方式准则,即说话需清晰明了,这里可以做简化,但也需要针对不同的用户群体。 三、从用户出发,了解说出这句话的初始意图 在我看来语音交互是一个比较繁琐的设计过程,因为不同场景用户会说什么样的话很难预测,所以我会选取几个最常见的使用场景,然后为每个场景按照最优路径(同样结合业务流程)写出示例对话,同时还要加上异常情况。 这个就是在切换播放模式时的一种异常情况: User:帮我切换到随机播放/随机播歌/按照随机播放歌… TTS:随机播放 (TTS:从文本到语音,Text To Speech,一般是由产品、交互设定的内置文本,当用户说了某句话命中某个说法,那么就播报该说法对应的反馈语。这整个过程就算做是一个完整的对话交互设计了。) 再来看看用户为什么会这样说“切换播放模式”吧: 在手机APP上,切换播放模式,都是点击切换到自己想要的播放模式,三个播放模式是固定的顺序,所以在车机上用户也会想要延续这样的操作习惯,才会有这样的说法。知道播放模式有哪些,但是不知道车机上语音对音乐的操控有哪些,所以试探性的尝试。不清楚有哪些播放模式,所以只是想看下有哪些播放模式 不论从哪个出发点,最终的目的导向都是:想要切换播放模式。 四、根据不同意图,对用户进行分类,寻找更好的解决方案 根据上面三种情况,其实可以分为: 对音乐比较熟悉的用户,对车机端的语音控制探索使用。对音乐不怎么熟悉的用户,对车机端的语音控制探索使用。 再来看看语音切换播放模式的需求想要解决的问题: 无需关注界面,直接下达语音指令达到目标;缩短用户操作路径:比方说手机上切换播放模式,有时候需要点击两次;而车机上直接下达明确指令,直接完成。 来,先来分析上面两种用户群体的更深层的用户定位。 1.对音乐比较熟悉的用户 手机上的操作大部分是因为在播放详情页的操作按钮过多,所以把播放模式收入到一个按钮中去,下面是不同的音乐界面,特意选择了一些不常用的音乐App,出乎意料酷狗是可以选择,基本其他的应用都采用点击切换播放模式的交互; 再深入一点,手机用户切换播放模式的时候分两种场景: 第一种,熟悉播放模式的人,在操作之前会有一个心理预期,所以会设定为她想要的播放模式,而播放模式的切换最多点击三次,用户成本不会很高,所以这也是大部分手机APP将它收入一个icon当中的原因;第二种,不是很熟悉的人,他们在操作的时候可能会想了解有什么播放模式,最后再去确定最终的心理预期,所以点击会超过三次。 综合上述,不论是熟悉程度如何,都会有一个既定的心理目标,有比较明确的操作意图。 而对音乐APP比较熟悉的用户群体基本集中在:18-40岁左右,他们基本上都知道有这三种播放模式,所以可以有以下做法: 做法一:经过刻意引导,让他们的意图更为明确,这样就不会出现这样的说法;直接下命令切换,也能够减少用户的操作路径,降低用户的操作成本。做法二:先完成用户目标用意:切换播放模式,再提示用户有什么播放模式可以切换,让用户逐渐熟悉做法三:完成用户目标用意,不进行提示,三种播放模式可能用户就是比较懒,不想说出具体的播放模式名称,这样只记住一个说法即可达成。 2.对音乐不怎么熟悉的用户 我专门找了我亲爱的爸比,询问了下他的中老年开车朋友们,年龄分布在40-50岁,大部分在45岁以下。下面是一些聊天记录。 我的问题:你们在播放音乐的时候,知道能够切换播放模式么?如果知道,那你们知道有几种播放模式可以切换么?请说出你们印象中的名字。在这个过程中,不要打开音乐APP查看,靠自己的记忆~ 很出乎我的意料,可能调查的目标用户在一线城市会结果又不一样。但是生活在一线城市的中老年人人数又有多少呢?很大部分的中老年人都生活在非一线城市,对于他们而言,简单的播放歌曲就能满足他们对音乐的需求。 但是,有没有必要像这一部分的人推送这个功能呢? 再来看会使用智能车机的人群分布:(网上扒来的数据,随意看下) 有65%的中国消费者愿意接受车联网功能,高于欧洲国家的40%和北美的32%。中国消费者也更加愿意尝试娱乐资讯方面的功能,比如社交媒体和车载视频及音乐。 未来十年间55岁以上族群会增长近1亿人,与此同时同时90后替代80后逐步长大为消费市场主力,2015年数量已经接近2亿。年轻和老龄人群的消费需求变化将值得深入挖掘,以赢得未来市场进行提前布局。 所以中老年的需求有待挖掘,所以我觉得这里应该要做的是音乐推荐的智能化,让他们享受到人工智能带来的好处;而不是引导他们使用新的功能,这样对他们而言使用、操作成本都大大提升,也增加了他们的记忆负担,明明车机的语音交互只是想要减少用户在开车中的干扰因素,这样和我们想做的事情背道而驰。 五、结合推荐做法、语音交互优化准则,确定最后的方案 好了用户群体分析、需求深入分析已经告一段落,那么就要按照刚开始觉得做的不到位的点,明确最后的方案。 根据二、四种可优化的点和推荐的做法,我们来对比分析下: 做法一是交互引导,其实在整体方案设计中就有考虑如何引导用户了解语音交互,已有方案。 做法二、三,都符合理解用户意图、能够提高可发现性,区别是后续的信息有没有提示用户。不过这里让人纠结的点有以下考虑: 提示用户,他们能够明确知道还能够说什么说法操作,不过说法提示过长,无法再精简,对用户来讲也有一定的记忆负担;不提示用户,他们可能不了解直接说播放模式的名称也可以操作,这样更简单有效。 我们再来明确设计目标:简单、高效、不分散注意力;所以提示是必须的。明确这些,继续参考资料-《语音界面用户设计》这本书,根据语音用户界面基本设计原则中的异常处理中,增强错误提示有这样的实例对话: 天气APP:我能为您提供天气信息,请问您所在的州和城市是哪里? User:恩…我在斯普林菲尔德。 天气APP:抱歉,我没听懂,请说出所在的州和城市。 用户:哦,我在明尼苏达州,斯普林菲尔德。 这个异常处理有提示用户需要明确的信息,那么我们的方案也可以采用这样的方案: User:切换播放模式 TTS:好的,请问您想切换为哪种播放模式呢? User:随机播放 TTS:已切换,您下次可以直接对我说随机播放。再见~ 这样的方案是不是看起来不是那么智障呢? 做语音交互方案一直处于这样的发现提升点、探索、制定方案、纠结、推翻、不断优化的过程中,关于这方面的教科书般的理论并不是很多,所以这里记录下一个优化小点从发散到制定优化方案的小过程,可能比较琐碎,分享下语音交互的日常工作,也希望能帮助想了解的人对此有点认知。 作者:青绛,微信公众号:慕七和大胖 本文由 @青绛 原创发布于人人都是产品经理。未经许可,禁止转载。 题图来自Pixabay,基于CC0协议 原文章作者:人人都是产品经理,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-17
    最后回复 蝴邸隋 2020-1-17 20:18
    2383 1
  • CES 2020丨Sensory和SYNTIANT合作发布边缘侧超低功耗多语言语音交互解决方案
    Syntiant,领先的人工智能芯片创业公司,为边缘侧提供智能语音解决方案(intelligent voice solutions)。 于2020年CES期间,Syntiant与Sensory宣布,Sensory高性能TrulyHandsFree唤醒词引擎与语音控制解决方案,支持Syntiant的微瓦级(microwatt-power)神经决策处理器(NDP, Neural Decision Processors),为消费者和边缘设备带来低延时,实时语音交互解决方案。不仅如此,该解决方案亦支持基于语音的身份识别(voice-based user identification)。 语音控制和语音交互越来越成为全球消费者的共同选择。Kurt Busch, CEO of Syntiant。与Sensory的合作将其人工智能语音算法与Syntiant半导体技术相结合,为消费者带来多语言的语音命令库并可为任何应用定制开发。 解决方案将为任何设备加速带来高速,高效,无需云端链接的语音交互界面,如耳机,智能音箱,智能手机,并带来远低于传统MCU的功耗。 通过执行神经网络运算逻辑(custom built to run neural workloads),Syntiant的NDP100与NDP101可支持数十条的本地语音命令,执行相应的音频事件处理(processing audio events),大幅度提升隐私,可靠性和即时相应(responsiveness)。不仅是语音唤醒,亦可支持包括声音事件监测,环境声检测,以及传感器分析等多种功能。 Sensory的嵌入式人工智能语音软件与Syntiant神经网络技术相结合为双方打开了新的市场,如语音,视觉和自然语言处理等(voice, vision and natural language processing)。Sensory开创性的将神经网络技术应用于嵌入式语音识别,目前嵌入其技术的消费类电子产品已经超过30亿台。 原文章作者:数智网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-17
    最后回复 芝鱿喧 2020-1-17 19:54
    3222 0
  • 机器人求职启示录 | 内容为王·技能称霸
    一台失能的人型机器,被扔在布满蛛网的旧库房。 一台会说话的音箱,却令主人如交密友。 所谓好看的“皮囊”任人设计,有用的灵魂才是万里挑一。机器人讨喜关键为何?是值得每一个机器人思考的求职命题。 机器人的价值在于完成人类的命令,提供相应服务。赋能终端,让智能设备开口说话,通过语音交互完成用户提出的需求,是思必驰的使命。 消费者为机器人买单,那么要先看看这台机器人会什么。 于是,思必驰推出DUI开放平台,将语音交互与技能、内容的服务连了起来。有了内容与技能的支持,机器人的AI潜能才有处施展:播放歌曲的机器人当了歌手,会导航的机器人做了领航员,备忘提醒的机器人做了私人助理。也或者,一位机器人多才多艺,身兼数职。 据DUI平台数据分析,娱乐、出行、教育是当下被用户使用最频繁的三大技能领域。在实际生活中,用户通过智能终端的技能,都能处理哪些问题?让我们看看,那些已经找到工作的AISpeech Inside ,主要在忙些什么。 在家靠朋友,出门靠翻译 轻松解决境外旅游两大痛点:语言、路痴 What are you 说啥嘞? 当你来到一个陌生国度,语言不通,仿佛在本色出演“出机场记”的真人秀。此时,一台带有翻译功能的便携设备,对你来说的重要程度不亚于护照。 思必驰携手小牛翻译推出一站式翻译方案,从硬件模组到软件算法,再到翻译技能,一站式赋能智能设备化身私人翻译官。无论是英文单词还是句子,准确快速的语音识别,准确清晰的实时翻译。除了中英互译,思必驰翻译方案还支持包括英、日、韩、俄、法、西、泰等110+主流语种以及维、藏、蒙、哈、朝、彝、壮七大少数民族语言到汉语的双向翻译。 思必驰翻译方案支持垂直领域翻译效果优化,可针对不同客户需求,根据客户行业特点和待翻译文本的特性,实现翻译的特殊定制与优化。如: 利用客户自有数据进行翻译系统的增量式训练,实现垂直领域翻译品质优化;根据客户要求开发指定语言方向的翻译系统,扩展新语种;根据业务需要,定制开发功能模块和开放底层函数接口,实现用户既有平台与翻译系统的深层次融合。 我在哪儿? 道路纵横交错,异国他乡出行,太难了!不用愁,交给地图导航技能大显身手。你只需动动嘴,说出目的地,分分钟变当地“土著”,穿街走巷,“游刃有余”。 以高德地图为例,支持地址查询、周边搜索、路况查询等功能,满足多种出行场景的导航寻址需求。 别人说的我都听得懂,想去的地方我都到得了,横着走遍天下,境外出行啥都不怕! 早教入天性,习惯成自然 教育从娃娃抓起,优秀会变成习惯。对于当下儿童教育类的技能,大多集中在启蒙与助教两种。同时,通过AI实现的教育技能,往往寓教于乐。新奇有趣的教学方式不仅不会成为孩子学习的负担,还会成为吸引孩子主动学习的动力。 启蒙养成性格 孩子的性格从出生到青春期有很强的可塑性,启蒙教育在这一阶段的作用至关重要。智力启蒙第一要诀是语言输入,情感启蒙第一要诀是多和孩子接触。 营造语言与陪伴的环境,讲故事是最好的选择。在听故事的过程中,训练孩子接收语言信息、分析故事情节、洞悉故事意义。但对于家长来说,选择适合孩子的故事是一大难题,抽出时间陪伴孩子讲故事是另一大难题。 针对AIOT的儿童教育需求,思必驰与口袋教育合作,打造了内置海量儿童故事资源的语音讲故事技能。内容覆盖2W+儿童故事:奇幻有趣的童话故事,帮助孩子增长知识的成语故事,陪伴孩子安眠入梦的睡前故事……只需一句“给我讲个故事”,善良的白雪公主,聪明的阿凡提,勇敢的小红帽即可带小朋友进入故事的奇趣王国,家长不再为睡前故事绞尽脑汁。 知识改变命运 AI助教——一个听起来未来感、贵族范儿十足词,通过强大的知识管理能力,让每个孩子都有一个辅助学习的“名助教”。 思必驰与先声教育合作打造的语言学习技能,支持文本跟读、口语测评、单词听写等训练方式,与语言学习中听、说、读、写的四门功课对标,实现语言技巧分别训练,语言能力统一表现。 文本跟读包含拼音、诗词、课文跟读,内容包括1-6年级的语文学习内容,从词句诗歌发音音调的准确度、流利度、完整度实时测评,并反馈结果;口语测评涵盖小学到初中全部英文单词,每天5分钟口语随机测评,让英语学习更有趣、更高效;单词听写覆盖沪教牛津版英语教材一到六年级的英语单词和英语单词释义听写,辅助学生独立完成,拯救被听写作业“绑架”的家长。 影音娱乐,尽收眼底 随着上海电视节白玉兰奖2020年征集公告的发布,网剧“转正”参选的消息被广泛关注。层出不穷的网剧播放版权被各家视频平台如视至宝。优质的视频内容平台,代表着丰富的影视资源。音乐、电台亦如是。 思必驰与爱奇艺、QQ音乐、咪咕音乐、太合音乐、喜马拉雅FM、听伴(原考拉FM)等内容平台合作,为智能影音设备的用户提供“海陆空”全品类的内容资源服务。语音点播,即享精彩。 此外,结合产品需求,可以提供场景化点歌技能。清晨起床,“来首轻音乐”;运动时刻,“来首动感辣曲”;工作闲暇,“播放舒缓的歌曲”;深夜睡前,“助(洗)眠(脑)神曲”。每时每刻,妙音相伴。 终于,机器人们明白了,真正能让人类喜欢的关键,不是和人类高度相似的外表,而是能帮助人类完成怎样的任务,提供如何的服务。化解语言不通的窘境,教导懵懂求知的孩子,供给文娱享受的服务…… 愿每一台有本领、有内涵的机器人,都能找到一份好工作。 原文章作者:思必驰语音交互,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-17
    最后回复 柯如冰 2020-1-17 19:11
    2190 0
  • 产品派]基于大屏语音交互平台竞品分析报告:从闭环问答到开放交流
    作为人工智能中最为典型的应用交互系统,智能语音交互系统将会成为人工智能发展的一个重要体现,在未来的生活中扮演着越来越重要的作用。 分析目的:了解语音助手的市场现状以及趋势,分析竞品产品定位,异同点,深化对产品的理解。 分析范畴:讯飞语点机顶盒,小米电视,小爱同学,小度DuerOs电视伴侣。 分析方法:智能语音交互技术解析,智能语音市场分析,竞品主要产品功能,竞品体验。 一、语音交互技术 语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递,一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程。 语音识别(Automatic Speech Recognition):简称ASR,是将声音转化成文字的过程。 自然语言处理(Natural Language Processing):简称NLP,是理解和处理文本的过程。 语音合成(Text-To-Speech):简称TTS,是把文本转化成语音的过程。 智能语音交互系统作为人工智能最为典型的应用之一,可以将其技术拆分为如上图部分。 在实际的应用场景中,对智能语音交互系统将提出特定的需求,本报告集中于家庭大屏场景下的交互分析。 值得注意的是,不同公司在智能语音技术的优势各有不同。其中,以行业龙头科大讯飞为代表,基于其深耕行业20载,在语音识别,声纹识别,语种识别有着较大的优势。 二、语音助手的市场现状 1. 全球智能语音市场分析 据统计数据显示:2017年全球智能语音美元,同比增长30%。随着移动互联网,智能家居,汽车,医疗等领域的应用带动智能语音产业规模持续快速增长,预计2019年全球智能语音市场规模将突破170亿美元。 2. 全球智能语音市场份额 在全球智能语音市场份额占比中,Nuance全球市场占有率排名第一,市占率达到31.6%;其次为谷歌,市场占有率为28.4%;排名第三的是苹果,市占率为15.4%;其后为微软以及科大讯飞分别占有8.1%以及4.5%的市场份额。 3. 中国智能语音市场分析 在人工智能和物联网技术的发展带领下,智能家居蓬勃兴起,互联网巨头及新兴创业公司从硬件、技术、系统解决方案等不同角度进行布局,智能家居系统初步显现。 预计2019年,中国智能家具市场规模将超1900亿,虽增长规模有所放缓,但市场规模将保持稳定增长,2020年将突破2000亿元。 4. 语音交互的市场规模以及市场格局 目前,中国智能语音市场的主要份额被科大讯飞、百度以及苹果分割。 数据显示:目前为止,中国智能语音市场,科大讯飞市场占有率排名第一,市占率达到44%;其次为百度,市场占有率为28%;排名第三的是的苹果,市占率为7%;其后为Nuance以及小i机器人占有均为3.0%的市场份额(前瞻产业研究)。 5. 中国家庭大屏产业 中国电视机出货量在经历2011年到2016年的持续正向增长后,2017年?次出现负增长,这?情况将在 2018年有所好转。 同时,互联?电视机出货量占?连年稳定攀升,预计2018年将达到88%,全年出货量近 4000万台。2018年上半年,受世界杯效应影响,销量同?增长3.6%,但受降价影响,整体营业额下降2%,综合测算全年销量同?增长3%。 以电视机为代表的大屏设备在智能家居中扮演着举足轻重的作用,作为智能家居最为主要的交互方式——语音交互,智能语音交互系统有着巨大的市场规模和发展潜力,本报告聚焦于基于大屏的智能语音交互系统进行分析。 相较于移动端的场景不同,大屏设备的主要使用场景在室内,集中于家庭。目标客户和使用场景的独特性,使得智能语音应用在该场景的使用具有特殊性。 例如用户在近景中,我要看语文。这里“看”理解成学还是点播,意味着完全不同的跳转页面。这对于语义理解提出了较高的要求。 大屏设备作为智能家居概念的重要组成部分,也是语音交互的重要入口必然成为市场必争的重要领域。 当我们转向用户思考IOT时代万物互联,意味着你身边的任何设备都是联网的,你可以在任何地方、任何时间和任何设备交互(IOT的4A原则),所以IOT将大大消弱了手机当前的交互中心地位。 当云端开始普及之后,未来计算平台的前台,是一系列形态、功能各异的智能硬件,这些硬件或大或小,有屏或无屏,近场或远场,位置固定或随身移动。虽然千差万别,用户却希望在任何一台设备上的交互状态可以云端同步至其他设备,用户可能随时在设备间切换,但希望交互进程和数据流不被中断、持续向前(集群智能)。 那么,什么样的交互能够支撑这种切换需求、适配各类设备而又保证体验的一致性呢? 从这个角度思考,我们很容易就能发现语音交互的独特优势。 6. 语音交互的优势 解放双手、双眼、双腿,接触空间限制,近场,远场可交互; 指向明确,语义直达目标,缩短使用路径; 自然简单人性化,学习门槛低; 可以1对1,也可以1对多; 对设备要求低。 二、竞品对比分析概览 1. 竞品简介 小爱同学是小米科技于2017年7月26日推出的智能语音交互系统,适用于智能音响及其他智能设备,建构于小爱开放平台上,可以通过连接进入米家物联网系统控制所有的米家智能设备。 小度电视伴侣是百度旗下的一款智能硬件产品,内置DuerOS系统。从产品的概念来看,其以 Soundbar 的形态融入高性能 4K 机顶盒、智能音箱的功能,其三合一的创新产品形态,为客厅影音场景带来了简洁的一体性解决方案。 依托全语音交互大屏吸引,小度电视伴侣可实现利用语音打开设置中的蓝牙开关、调整图像设置等等。如“打开WiFi”“打开设置”等等,或者根据界面显示的内容,用语音命令指定播放视频内容,如“播放第三个”“这个人是谁”等等。此外,小度电视伴侣还可以通过语音控制多款智能设备,如“打开落地灯”“打开空调”等等。 讯飞语点是由科大讯飞推出的智能语音交互系统, 在2015年,科大讯飞重新定义了万物互联时代的人机交互标准,发布了对人工智能产业具有里程碑意义的人机交互界面——AIUI。 2016年,围绕科大讯飞人工智能开放平台的使用人次与创业团队成倍增长。截至2017年1月,讯飞开放平台在线日服务量超30亿人次,合作伙伴达到25万家,用户数超9.1亿,以科大讯飞为中心的人工智能产业生态持续构建。 2. 目标客户 本报告针对基于家庭大屏的智能语音交互系统的竞品分析,故家庭大屏用户为本报告产品的目标用户。 现阶段,主流大屏视频接入主要分为DTV,IPTV和OTT三种类型,截?2018年Q2,DTV、OTT的中国城镇家庭?屏保有量均超过2亿户,IPTV??保有量达到1.42亿。其中,中国移动魔百和在?东省有约1000万的?户成功转为IPTV?户,移动OTT盒?并?IPTV阵营可能成为趋势,那么有望在短期内使IPTV总?户也跃升?2亿户。 受限于数据和资料,本报告对不同类型的大屏终端用户不作区分,以所有大屏用户作为目标用户作为分析对象。 大屏用户性别分布比例: 大屏用户年龄分布比例: 大屏用户学历分布比例: 基于现有数据可以分析得出,大屏用户的用户分布较为平均。 与传统的人工智能产品以年轻人、高学历、男性为主要目标用户不同;基于大屏的智能语音交互系统用户分布更为平均和广泛,这种特点对具体场景的需求设计提出的新的要求。 目标用户群体画像不具有代表性,使得产品在设计和开发时需要更多的关注于场景而不是用户,从该场景下的通用需求出发对产品进行设计和迭代。 三、评价指标 本报告基于智能语音交互系统使用场景,在大屏语音交互外结合了车载语音交互系统评价的标准,制定出对于大屏语音交互的性能评价体系。 智能语音交互系统的性能需满足以下指标要求,其中唤醒率和误唤醒率应针对支持语音唤醒功能的语音交互系统。 1. ASR 1.1 字准确率 该指标用于评价语音交互系统输出的人类可是别的文本信息正确率。对于中文普通话语音交互系统,该项指标的评价分类如表1。 1.2 识别成功率 若语音交互系统在既定的识别轮数内完成了语音识别任务,则此次语音识别成功。语音识别成功与否应该兼顾语音交互系统动作的可靠性问题。 若语音交互系统共进行了R次特定的语音识别任务,其中SR次识别成功,FR次识别出现误操作(包括但不限于 未在既定的识别轮数内完成,未完成识别前提前退出,识别无响应)。则: 识别成功率= SR/R * 100% 误操作率 = FR/R * 100% 识别成功率 + 误操作率 = 1 1.3 平均响应时间 该指标用于评价语音交互系统对语音识别任务的响应速度,离线语音交互系统的平均响应时间应≤2S;在线语音交互系统的评价响应时间应≤3S。 1.4 唤醒率 若语音交互系统共进行了W次唤醒,其中SW次成功唤醒。则: 唤醒率 = SW/W * 100% 该指标用于评价语音交互系统在有背景噪音情况下,对语音唤醒操作的正确响应情况。 1.5 误唤醒率 若车载语音交互系统在T小时内出现FW次误唤醒。则: 误唤醒率=FW/T 次/小时 该指标用于评价语音交互系统在有背景噪音的情况下,对语音唤醒操作的错误响应情况。 2. TTS 主观测试(自然度),以MOS为主: MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好; ABX,普通用户评测(主观)。让用户来视听两个TTS系统,进行对比,评测出声音的自然度。 3. 交流体验 3.1 用户任务达成率(表征产品功能是否有用以及功能覆盖度) 比如智能客服,如果这个Session最终是以接入人工操作为结束的,那基本就说明机器的回答有问题,或者重复提供给用户相同答案等。 3.2 对话交互效率 比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率等(可能和打断,One-shot等功能相关)。 3.3 根据对话系统的类型分类 1)闲聊型 CPS(Conversations Per Session,平均单次对话轮数)。值得注意的是此指标为微软小冰最早期提出的指标,并且是小冰内部的(唯一)最重要指标。 相关性和新颖性。与原话题要有一定的相关性,但又不能是非常相似的话; 话题终结者。如果机器说过这句话之后,通常用户都不会继续接了,那这句话就会给个负分。 2)任务型 留存率:虽然是传统的指标,但是能够发现用户有没有形成这样的使用习惯;留存的计算甚至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如之前百度高考,教考生填报志愿,就是这么弄的。 完成度(即前文提过的“用户任务达成率”):由于任务型最后总要去调一个接口或者触发什么东西来完成任务,所以可以计算多少人进入了这个对话单元,其中有多少人最后调了接口。 相关的还有(每个任务)平均slot填入轮数或填充完整度。即完成一个任务,平均需要多少轮,平均填写了百分之多少的槽位slot。 3)问答型 最终借助人工操作的比例; 重复问同样问题的比例; “没答案”之类的比例。 整体来说,行业一般PR宣传时,会更多的提CPS,其他指标看起来可能相对太琐碎或不够高大上。 但是,实际工作中,可能CPS更多是面向闲聊型对话系统;而其他的场景,可能更应该从“效果”出发。比如,如果小孩子哭了,机器人能够“哭声安慰”,没必要对话那么多轮次,反而应该越少越好。 4. 语料自然度和人性化的程度 目前对于这类问题,一般是使用人工评估的方式进行。这里的语料,通常不是单个句子,而是分为单轮的问答对或多轮的一个session。 一般来讲,评分范围是1~5分: 1分或2分:完全答非所问,以及含有不友好内容或不适合语音播报的特殊内容; 3分:基本可用,问答逻辑正确; 4分:能解决用户问题且足够精炼; 5分:在4分基础上,能让人感受到情感及人设。 另外,为了消除主观偏差,采用多人标注、去掉极端值的方式。 四、产品功能对比一览 可以看出智能语音交互系统不仅仅局限于对智能家居设备的语言控制,不同厂家的语言交互产品都进行了大量的功能开发,包括但不限于生活管理服务、游戏、生活百科、增值服务。如 何挖掘出该场景下用户的深度需求,抓住场景下用户的痛点变成了各家厂商需要重点考虑的问题。 五、产品体验细节对比 1. 功能体验 根据影响用户选择语音助手线上调查问卷的结构,语音识别准确度,操作便捷,输入速度快,功能多样,词库丰富等因素,对比分析部分产品体验细节。 本报告针对语音交互系统中常用的业务场景进行了测试,通过对具体功能的体验对比进一步了解。 基于上述功能体验,讯飞语点在语音合成失真度和反应时间上具有一定的优势,这主要得益于科大讯飞在语音技术上的技术积累。 小度在语音交互时,更加侧重音乐搜索功能。在“刘德华的无间道”和黄梅戏的交互中,小度均直接跳转进QQ语音界面。 在开放式聊天中,小度的体验感较差。无法理解用户意图时,采用了相同的语音反馈使得用户的使用欲望降低。小爱同学针对开发式问题,有着不同的反馈。 在知识百科场景下,小度体现出了较强的优势。该优势得益于百度在搜索引擎中的长期积累。 2. VUI体验 (因机顶盒配置问题,无法体验) 六、总结分析 智能语音交互系统依然存在着发展空间,竞争进入了白热化阶段。以本报告的三款产品为例,讯飞语点,小爱同学和小度分别拥有自身的发展优势。但值得一提的是,暂时未出现一款绝对领先的产品。各款产品都拥有自己优势和劣势,特别地在某些特定的场景中体验分化极大。 现阶段,语音交互系统中语音识别环节暂无较大差距。尽管在地方性语言识别上科大讯飞拥有着较大优势,由于其使用场景较为单一且目标用户数量有限,难以形成产品优势。 在NLP阶段,由于各款产品技术背景的差异,使得其在不同场景下存在独特的优势。例如:讯飞语点的方言识别,小爱的米家产品控制,小度的语音检索。但在识别语音意图时,与真实的对话依然才存在着较大差距。 搭载于大屏上的智能语音交互系统,由于其场景较为复杂,依旧需要一段时间进行发展和完善。 关于语音交互系统未来的猜想 智能语音交互系统在IOT和5G的技术的不断发展和普及下,将会拥有越来越大的发挥空间和巨大的市场需求,智能语音交互系统也将会从闭环问答式的产品逐步走向开环交流式的智能产品。 作为一款智能产品,智能语音交互系统将逐渐实现情感化的功能,从一个智能系统到拥有情感需求的智能机器人。可以想象的是,智能语音交互系统将会成为人工智能发展的一个重要体现,并在未来的生活中扮演着越来越重要的作用。来源:产品会 ~~~~~~~~~~ 壹点方圆: 专业商业模式,产品全流程;项目管理;创业服务;职场辅导。 原文章作者:壹点方圆,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-16
    最后回复 窑屋 2020-1-16 17:52
    1029 1
  • 2020 CES | 5G和自动驾驶到来后,我们需要怎样的车内语音交互?
    文/BY 谷歌和亚马逊的生态商之战 整个CES期间,拉斯维加斯随处可见“Hey Google!”的广告,毫无疑问,Google Assistant语音助手是谷歌是本届CES的展示重点。随着手机、PC上语音助手业务的下滑,及5G刺激下物联网对语音助手需求的激增,谷歌计划将语音助手的主战场转移至汽车和智能家居上。 在Google Assistant展台,停放着一辆宝马X5和一辆沃尔沃XC40,分别通过Android auto手机映射和Android OS内置车机,集成了Google Assistant语言助手服务。体验下来,Google Assistant依然停留在生态商将应用从手机移植到车内的水平,例如通过唤醒,它能够帮助车主实现连续多目的地导航,控制娱乐系统及连接的智能家居,不得不说的是,Google Assistant体验下来约等于一年前国内百度语音的水平,具体体验可观看下方视频。 Google Assistant最直接的竞争对手是亚马逊Alexa,此前搭载Alexa的亚马逊智能音响在海外占据庞大的市场,而随着5G与物联网业务的兴起,亚马逊也正着力于将Alexa植入到汽车及智能家居中。在本届CES上,亚马逊展示了Alexa Auto语音助手,该语言助手会集成到自家电动皮卡Rivian的全系产品中,此外,兰博基尼、通用也将集成Alexa Auto。 与谷歌类似,Alexa Auto的功能同样集中在将亚马逊生态从手机、音响移植到车内,这包括了亚马逊的云计算、娱乐系统、购物及支付。单就打通语音端和支付端这一点来看,Alexa Auto堪称目前世界上技术含量最高的语音助手系统。 科技公司更专注用户体验 如果摆脱生态思维的束缚,车内的语言交互又会是怎样的表现呢?本届CES还有一家专注车内语音交互的科技公司——Cerence,准确来说,这是一家致力于“软件定义未来出行工具”的软件科技公司。Cerence通过ARK、e.GO Mover自动驾驶巴士、Cerence Drive三项产品展示,解答了上述问题。 先说最让人眼前一亮的Cerence Drive无按键智能座舱。通过一块大屏和演示车的配合,Cerence展示出最新多模态自然交互、视线识别、应急车辆检测等功能。2019年第三季度我在上海看到Cerence的多模态自然交互演示时,该功能还停留在“PPT”阶段,而时隔不久的CES,便已能在车上实际感受该功能了。 所谓多模态交互,可以理解为借助语音、视线捕捉、手势识别等多种方式来共同完成交互。例如,我可以看着驾驶员一侧的车窗说“把它关上”,驾驶员一侧的车窗就会关闭。再比如我路过某家餐厅时盯着窗外那家店面,问这家店好不好吃?就会得到这家店的大众点评评分等信息,并给出相应建议。 相较2019年的演示,本次演示的多模态交互还新增了手势、视线识别在智能挡风玻璃上的交互应用。主驾驶可以使用手势来移动、选择在挡风玻璃上显示的部件,进行分段式路线导航、音乐播放、查询天气等操作。例如,驾驶者使用抓取-投掷手势并结合凝视的方式,将导航窗口移动至副驾面前的挡风玻璃处,实现座舱内的互动。新增的功能主要将应用在逐步到来的L3自动驾驶车辆上。 Cerence展台还展示了一辆e.GO Mover自动驾驶巴士,用以演示L4级自动驾驶巴士与乘客及行人的交互。帮助消费者了解未来如何安全高效地与自动驾驶汽车进行沟通。通过多语言自动语音识别和自然语言理解技术,乘客和行人可以使用母语与汽车进行对话式的互动,例如可以询问这辆车是去哪儿,会不会路过你要去的地方?演示车的语言还运用了情感TTS,例如,重要通知可以用更加紧急的语气表述,而延误信息可以用包含歉意的声音传达。 最后要介绍的ARK,是一套可快速部署的语音AI交钥匙解决方案。Cerence ARK集成了唤醒词、声纹验证、自动语音识别、自然语言理解和文字转语音等领先功能,并具有开放、灵活和快速部署的优势。通过体验可以发现,这套语言已经淡化了生态APP的存在感,而更多基于人的实际需求来提供服务,跳过中间环节,直接输出用户最需要的结果。 5G、自动驾驶等技术,为车内人机交互带来了新的想象空间。目前来看,谷歌、亚马逊等互联网巨头在整合生态服务上有着巨大的优势,凭借这样的优势,互联网巨头们的语言助手可以快速上车,并提供一系列新奇的前所未有的应用。这些应用会包括在线听歌看剧、控制智能家居、网上购物等,新奇却缺乏想象力。 与谷歌和亚马逊不同,Cerence的切入点在于如何提升用户的交互体验,解决用户每个阶段最迫切的实际需求。短期内,相对封闭的生态确实会让Cerence这类专注技术的科技公司处于不利地位,毕竟,那种“更接近人与人交谈”的交互体验,没准两年以后谷歌和亚马逊也可以做到。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-16
    最后回复 当诠忆 2020-1-16 10:29
    4181 0
  • 谷歌没完成的事,Rokid Glass 2做到了,全语音交互免动手
    我们时常在科幻影视作品中看到智能眼镜的存在,而真正让我们开始关注智能眼镜的,或许是聚焦于消费市场领域的 Google Glass。Google Glass 虽然轻便小巧,但其续航不到 5 小时且难以适配应用操作平台的弊端,让人们对其拒之门外,高达 1500 美元的售价,也并不能满足用户在日常办公中的美好幻想。最后谷歌也不得已在 2015 年忍痛宣布停产 Google Galss。 虽然智能眼镜目前慢慢淡出消费者的关注眼球,但智能眼镜行业在某些领域还继续大放异彩。就像 Rokid 在近期推出的Rokid Glass 2 智能眼镜,解决了 Google Galss 续航和佩戴蹩脚的不和谐体验,在交互和适配平台方面都满足企业用户的需求,真正令你解放双手。 虽然 Google Glass 的外观轻便小巧,但其续航也被人诟病,最长也不到 5 小时,如果录制视频也只能维持 30 分钟。而 Rokid Glass 2 在采用眼镜+DOCK 的分体式设计的同时,在 DOCK 部分内置了 10000mAh 电池,续航为 8 小时,满足了工作场景下长时间的使用需求。就连配备的 LCOS 显示屏功耗也非常低,其具备 40°视场角,能给用户带来相当于 3 米外 85 寸高清电视的视觉感受。 Rokid Glass 2 分体式的设计,辅以内衬的 EVA 亲肤材质,在航空级镁铝合金材料下,能对重量进行良好分配,给予用户无压痕、极度适度的佩戴体验。凭借低功耗和舒适的佩戴体验,用户再也不用担心像佩戴 Google Glass 一样,怕自己头顶环状高温物体,如戴上紧箍咒的孙悟空一般心里发慌。 当然,在交互方面,Rokid Glass 2 也极具人性化。其采用了业界领先技术,为用户提供逼真的显示效果。在搭载 Rokid 自研的全语音操作系统下,能将 AI 于 AR 充分融合,带来「只动口,不动手」的创新交互体验。Rokid Glass 2 支持免唤醒语音识别,并在降噪上做了专门优化,确保快速的响应速度与准确的语义识别。在搭载 NPU 神经网络芯片和 800 万像素自动对焦镜头下,性能强劲的 Rokid Glass 2 加持有领先的图像识别算法,能快速进行数据处理、图像采集和人脸识别等操作。 Rokid Glass 2 的推出,可在执法安防、实操培训、工业维修及装配、电力巡检、物流仓储等应用领域上大大提升生产力,其开发模式也比较简单,能提供包括语音、头控、触摸等在内的交互 SDK,以及人脸识别、车牌识别、物体识别等在内的功能 SDK,支持 Android Studio、Unity3D、Cocos 等多种开发环境,最快 14 天即可完成对 Rokid Glass 2 的开发。 作为生产力工具,Rokid Glass 2 的核心器件也全部国产,能满足安防等涉密领域的要求,确保信息保密和数据安全,也真正响应了工信部在智能制造十点示范专项行动中提出的「十年内核心器件国产化率达 70%」目标。 除了这款黑科技满满的 AR 智能眼镜,Rokid 也将在 2020 年第三季度推出更加轻量级的一体式 AR 眼镜,随着 5G 网络的普及与爆发,对万物互联有高要求的工具和平台也在不断发展,或许,如此高效、安全、智能的 AR 智能眼镜,终有一天能取代智能手机,解放我们的双手。 原文章作者:乖乖Show,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-15
    3554 0
  • 芯智科技推出车规级语音智能芯片,能否解决语音交互痛点?
    智能汽车 智能网络与语音控制技术的快速发展,汽车在驾驶中对语音操控的应用越来越追求快速、安全、精准,具备学习能力的智能语音AI助理应运而生。 如今车联网行业,语音交互更多的是依托云端算力处理和反馈,而云到端、云到云到端之间的数据传输在无形中产生了更多的信息延迟,加之在诸多网络环境不畅的场景下,智能语音AI助理的对话反馈、操作速度会受到影响,造成听不懂、不明白、答非所问的情况。 为了适应汽车在不同环境、不同状况都可以实现人机交流,需要有独立的运算芯片满足其产品要求和处理数据的能力,因此,绝大多数主机厂和科技公司进行研发并纷纷推出能够满足汽车使用的车规级芯片,近日芯智科技正式宣布业界首款车规级全栈语音 AI 芯片流片成功,芯智科技是由云知声和吉利集团旗下亿咖通科技共同合资成立,致力于打造云、端、芯一体化的全栈式车载语音解决方案。 车规级中央处理器 芯智车规级智能AI芯片 以芯智科技推出的首款AI车载语音芯片为例,芯片中的微控制单元主要处理CAN总线信息与控制逻辑,确保控制单元运行的同时还要兼容车辆CAN总线协议与车辆线束。且满足EMC电磁兼容性达标测试,将芯片、设备和系统放置在电磁环境中不会受到周围电磁环境的干扰,保证设备或系统的正常工作不受外界影响。 车规级芯片对功能、可靠性、工作温度等指标的要求非常严苛,仅次于航空航天、武器、舰船领域的军工级芯片,其工作温度范围在零下40℃至125℃,所以车规级的定义实际上是一套硬件上的规格标准。符合以上标准的,可以称为车规级。 http://5b0988e595225.cdn.sohucs.com/images/20200114/36f7ed683b9a470d92fa6b1ee2b70e10.jpeg 芯智科技的车规级语音智能芯片 芯智车规级智能AI语音全时在线 目前绝大多数车辆配备的车机系统都需要连接网络,对实时语音信息识别与处理,从驾驶员发出指令到接收指令并分析处理,云端天生的延迟对获取、处理实时数据并作出快速反应存在技术瓶颈,用户希望人机交互时反映速度快,车载产品依靠云端的算力是远远不够的。 所以芯智车规级智能AI在车机系统中增加边缘侧计算的能力,如汽车行驶在无人区或山区中这类道路并不能完全收到信号,所以提升边缘侧的计算能力可以让一些深度学习引擎在本地进行操作。 http://5b0988e595225.cdn.sohucs.com/images/20200114/81ba2c0d7ffb47a3a3a3cc29ba6a284f.jpeg 智能语音设备 汽车是一个5到10年周期内满足工作状况稳定的产品,芯智车规级智能AI车载芯片的基础设计满足在使用期内迭代升级与学习能力,同时车规级芯片可以有效保障用户的隐私安全,在用户使用一些隐私功能时都是通过本地算力进行操作,该操作不会通过车载网络上传至云端。 因此,芯智车规级智能AI智能芯片方便了驾驶员无障碍的人机沟通,增加计算稳定性,解决了车载网络的延时性,效释放主力芯片CPU的计算力,提升语音识别的准确性、导航地图的清晰度与反应速度、车载娱乐信息可以更加快速的读取。 http://5b0988e595225.cdn.sohucs.com/images/20200114/23de7f459cb847b2a8f9c83ee6ca91c7.jpeg 智能设备控制器 在智能车机系统中语音识别是非常重要的功能,想要脱离开网络数据实现本地语音识别,从技术角度看似难度非常大,芯智科技产品副总裁孙晓欣表示:“我们将部分语音识别信息录入本地,比如开启车窗、空调等实用功能性的指令。另外天气预报、股票、新闻等信息也可以实现离线查询,如何将之类我们常规立即的实时信息实现离线的呢?拿天气预报举例来说,一天中的天气是多变的所以实时天气也不一定准确,系统在连接网络时将天气信息缓存下来作为预报数据,同理其他信息也是如此运用缓存来实现,等相关信息更新后车机系统会主动通过网络来更新数据”。 芯智全栈型车规级语音芯片 什么是“全栈”?指的是驾驶员与车机完成整个车机对话的流程,每一个节点都是一个语音技术。该流程绝大部分的语音技术都是在端侧发生的,包括唤醒,本地听写,仲裁,内容集成,对话逻辑实现,以及语音系统的朗读,全栈式语音控制可以看成一套链路串联在一起,当其中一环出现问题整体系统的用户体验就会打折扣。 http://5b0988e595225.cdn.sohucs.com/images/20200114/9a2c32e2f867493c89c7c37975d95fbd.jpeg 车规芯片的特点 为了避免通过网联数据接收的信号出现问题,芯智科技将所有本地语音引擎全部集成在这一个9毫米×9毫米的芯片里,它不像业界现在有的一些ESP方案,它只集成了语音唤醒和信号处理,通过CPU四核的RISC-V 400兆来实现运算处理,车规芯片这一载体将语音云端、云侧、端侧的所有语音引擎全部打通,实现语音指令全时在线并完成驾驶员以及车内乘客的控制需求。 总结 智能语音控制系统承担着车内驾乘人员与车机系统交互的重要角色,有了车规级智能AI语音芯片的支持,车辆离线处理能力将得到提升,车载语音交互可以满足不同场景下的交互需求,车规级智能AI语音芯片也逐渐会变成车机系统的硬件标配,促进汽车生产的智能化、数字化,因此芯智车规级智能AI的诞生将对驾乘人员安全行车、舒适出行会有一个全新的体验。(本文首发钛媒体,作者/姚圣祺,编辑/项欧) 更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App 原文章作者:钛媒体APP,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-14
    最后回复 寤落聂 2020-1-14 14:41
    2822 0
  • 如何让AI人工智能更懂你?VUI语音交互智能升级
    文/原创-吴玉玲 图/网络 研究背景 AI人工智能逐渐渗透和颠覆着我们的生活,对用户体验提出了更多语言学、情感识别、逻辑推理等方面的新要求。 VUI语音交互作为一种新的领域快速发展。 人机交互方式从GUI图形用户界面发展到VUI语言交互。VUI语言交互成为AI时代人机交互的首选模式。 因为VUI语言交互是人类的本能。这种交互方式更自然、信息传递更快、学习成本更低,同时解放双手,可以手、眼、耳多种感官交互协同。 在情感层面,VUI语言交互是最有温度的交互方式。机器人可以被注入情感、人格化。它扮演着亲密朋友的角色,给予用户情感上的依赖。 VUI语言交互的发展 目前,VUI语音人工智能处于从感知智能升级到认知智能的阶段;从简单的命令式对话升级到理解能力、思考能力,甚至具备个性化、情感识别的能力。 从小词汇量到大词汇量再到超大词汇量;从限定语境到弹性语境再到任意语境;从安静环境到近场环境再到远场嘈杂环境;从朗读环境到口语环境再到任意对话环境;从单语种到多语种再到多语种混杂,人工智能从计算智能到感知智能到认知智能再到抽象思维智能发展。 什么叫认知智能? VUI语音人工智第一层级是感知智能,能识别问题、回答问题就具备了感知智能,通俗来讲就是“会听”、“会说”,它是最基础的表达能力。 第二层是认知智能,指具备理解能力,基于某个场景、某种环境去理解语义的交互智能。 第三层是抽象思维智能,指能进行判断、逻辑推理、情感识别综合分析后得出结论的交互智能。 VUI语义理解 理解才能更懂你。目前人机交互还没达到真正意义上的沟通。更多是人类对机器发出指令,机器回应指令。 如何改善人机语言交互的有效性? 显然,VUI语音人工智只是会“听”是不够的。中国语言博大精深,语义理解是自然语言处理中最大的难点,机器需要根据语境从多对多映射中,找到最合适的语义,同时要上下语境关联,消除岐义;理解语言中的指代义、识别对话意图;理解人类行为背后的动机以及情感,才能真正做到更懂用户。 语义理解难点: a、消除歧义:例如“沙发”可以指家具,也可以指第一条评论。 b、理解指代:例如“小明欺负小李,所以我批评了他”,他是指代“小明”。 c、意图识别:“我想听‘小苹果’”,中的小苹果是指筷子兄弟的歌,而不是水果‘小苹果‘。 d、情感识别:“我不开心”都是表示对话人心情低落。包括隐性、显性情感的识别。 除此之外,通过知识图谱来补充机器人的知识,使机器人对自然语言的语义理解更加精准智能。 VUI语音交互类型及特点 为了更好地理解各种复杂的语言交互场景,我们以聚类的方式来分析不同类型的语音交互特点。按交互方式,目前语音对话可以分为四种:命令型交互、问答型交互、闲聊型交互、任务型交互。 (1)命令型:交互特点一般是简单的一句话,例如: 用 户:“小度,开灯” 智能音箱:“好的” (2)问答型:交互特点一般是单一轮次。问答型交互要求有较完善的知识图谱,在没有直接答案的情况下甚至需要运用推理得到答案。例如: 用 户:“现在几点了” 智能音箱:“现在是早上7点10分” (3)闲聊型:交互特点一般是多轮次,说话人没有明确需要得到什么样的信息,能够随时被打断。机器人要根据说话人的性别、年龄、爱好、情感等特征来确定话题,要巧妙激发起用户闲聊的兴趣,延长对话时长和提高黏性,避免把天聊死了。例如: 用 户:“好无聊,小度你能陪我聊会天吗?” 智能音箱:“好啊。你昨天看的《宠爱》感觉怎么样?” ...... (4)任务型:交互特点一般是多轮次,机器人需要准确了解用户的需求并快速回答。遇到用户的意图不完整时,引导用户补充,必要时给用户提供帮助和引导。 a、准确理解用户的需求。例如: 用 户:“附近有五星好评的粤菜馆吗?” 智能音箱:“附近有2家五星粤菜馆。广州酒家餐厅 500m;禧记餐厅 865m” 这个对话包含的需求信息有距离信息:附近,好评度:五星,餐馆类型:茶餐厅。 b、遇到用户的意图不完整时,引导用户补充,例如: 用 户:“我想听一首歌” 智能音箱:“请问你想听中文歌还是英文歌?” c、必要时给用户提供帮助和引导。例如: 用 户:“我不会打滴滴” 智能音箱:“你可以尝试对我说“打个出租车” VUI语言交互的未来应用场景 在物联网、人工智能时代,围绕用户端的自然语言交互将是无处不在。 未来每个用户周边都会有很多连接的端,承载更多的服务交互。 例如:冰箱和马桶看似毫无相关的两个事物,在未来它们都有可能合作起来监控你的健康饮食,冰箱控制你的饮食,马桶测量和评估你的排泄物,与医生连接,管理你的健康。洗衣机通过RFID射频技术识别是否需要干洗,与干洗店连接直接下单...... 移动互联网时代相对固定的用户场景和交互,到了物联网人工智能时代,将会呈现多点分散。 未来,每个大场景将会产生一个生态,比如智能家居、智能车载、智慧城市、智慧医疗、智慧教育......出现很多新的商业机会,同时也面临更多的挑战。 总结: VUI语言交互成为AI时代人机交互的首选模式。这种交互方式更自然、信息传递更快、学习成本更低,同时解放双手,可以手、眼、耳多种感官交互协同。VUI语言交互也是最有温度的交互方式。 目前,VUI语音人工智能处于从感知智能升级到认知智能的阶段;机器需要根据语境从多对多映射中,找到最合适的语义,同时要上下语境关联,消除岐义;理解语言中的指代义、识别对话意图;理解人类行为背后的动机以及情感,才能真正做到更懂用户。 语音对话可以分为四种:命令型交互、问答型交互、闲聊型交互、任务型交互。未来,每个用户周边都会有很多连接的端,承载更多的服务交互。 未来,VUI语言交互将是无处不在。智能家居、智能车载、智慧城市、智慧医疗、智慧教育......每个大场景将会产生一个生态,出现更多的机会和挑战。 作者简介 吴玉玲 公众号「UXD全链路设计」 精深设计16年,9年28人+团队管理经验,4年设计总监经验,担任过多家企业设计总监。热爱设计、较强的产品思维、商业思维,持续学习并输出新的设计理念和管理方法。人人是产品经理平台专栏作者、优设平台VIP通道投稿作者。 擅长及研究方向: UI设计/交互设计/UED设计/UXD全链路设计/物联网设计/用户体验与智能产品设计 原文章作者:用户体验与物联网设计,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-13
    最后回复 允裘 2020-1-13 14:26
    2360 0
  • 特斯拉汽车很快“会讲话”?马斯克要用智能语音实现更多交互功能
    记者 | 柯晓斌 编辑 | 上周日,特斯拉首席执行官伊隆·马斯克(Elon Musk)在其推文中发布了一段视频,并声称特斯拉汽车很快“会讲话”。 在视频中,一辆特斯拉Model 3说,“不要只是站在那里看我,上车”,随后是另一条声音较小的音频。 特斯拉做语音交互已不是秘密。马斯克曾是Open AI的董事,但因为特斯拉的AI产品和Open AI存在潜在竞争,于是离开了Open AI的董事会。 两年前,特斯拉聘请安德烈·卡帕西(Andrej Karpath)领导其计算机视觉和人工智能团队。从那时起,他们一直在扩大他们的团队。 12月25日圣诞节,特斯拉向车主推送编号为2019.40.50“圣诞节假日更新”,其中包括FSD(完全自动驾驶功能)的预览版本。 在这套系统中,特斯拉加强了智能语音交互功能,车主可以通过操作方向盘的滚轮,使用车内系统语音阅读和回复信息。同时,特斯拉的语音交互系统也在向Siri学习,新系统支持车主通过语音命令完成许多此前需要触控完成的交互,例如设置车内空调温度、调整后视镜角度,以及打开座椅加热器和手套箱。 目前,特斯拉已经具备了温度、车辆、导航以及媒体控制等语音操控指令,同时可以通过语音控制来打电话以及发短信。去年年底,特斯拉为中国用户推送了“智能召唤”功能,通过智能召唤,用户可以用手机控制车辆自动到达车主的所在位置,还可以根据实际的道路情况来进行规避障碍,并准确在指定目的地停车。 此前,马斯克曾公开表示,特斯拉的目标是让司机通过语音命令完成所有事情。如今,马斯克又朝他的目标更近了一步, 对于马斯克而言,近期好事不断。 1月7日,国产特斯拉Model 3在其位于上海临港的超级工厂内正式对外向普通用户车主交付。这也是继一周前向内部员工车主实现交付后,国产特斯拉首次对外向社会车主启动大规模交付。 同时,特斯拉还宣布了Model Y制造项目正式启动。按照规划,Model Y预计将于2020年中实现小批量交付。马斯克在现场表示,“除了Model 3和Y,未来上海制造工厂还会导入其他新车型。 不过,上周四,在多家投行发布研报下调特斯拉股票评级之后,其股价在周四结束了连创新高的走势逆市下跌。特斯拉股价周四逆市下跌10.80美元,跌幅达到2.19%,报收于481.34美元。这也是其进入2020年之后股价首次出现下跌。 原文章作者:界面新闻,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-13
    最后回复 宿秀美 2020-1-13 14:08
    2052 0
  • 语音交互技术研发服务商声加科技获数千万元Pre-A轮融资
    投资界1月13日消息,据36氪消息,语音交互技术研发服务商声加科技近期获得数千万元Pre-A轮融资,本轮投资由厦门半导体投资集团领投、搜狗跟投。 本轮融资将主要用于语音处理技术迭代以及市场推广。 声加科技成立于2018年1月,是一家司专注于通信声学核心技术,为行业用户提供复杂场景下的“端”上的近场、中场、远场语音处理方案与及技术。针对目前语音交互过程中面临四大主要问题:对话有效距离受限;唤醒设备要求周围环境要安静,否则设备难以识别指令;交互过程中对发音准确度要求,用方言难以沟通;设备的持续通话能力有限。核心技术在于通过麦克风阵列实现复杂噪声环境下的拾音,并且构建了五大算法模块回声消除、混响消除、声源定位、波束形成、噪声抑制、关键词唤醒,使语音交互即使在较远距离中也能完成,并且降噪能力很强,对话时不需要保持非常安静的环境。 公司2018年完成了核心算法的搭建;2019年重点完成复杂场景下的多麦克风阵列芯片和模组的定义及场景化,主要通过软件的形式为智能终端产品提供服务;2020年计划研发更低功耗的2MIC麦克风阵列芯片和模组,并将市场扩大到工业、医疗、教育等场景。 本轮投资方厦门半导体表示:“投资声加科技是投资于一个在语音解决方案领域有重要意义的产业链环节。在语音行业整个产业生态圈内,声加是基础技术提供商,厦门半导体投资集团投资声加,将促进声加与产业链上下游企业的深入合作,产生良好的协同效应。 ” 搜狗表示:“搜狗一直强化以语言为核心的AI技术研发和积累,并支持AI硬件产品,通过录音笔、翻译机等硬件品类切入到智能语音市场领域,持续带来创新领先的语音交互体验。本次投资声加看重的就是声加在声学和语音领域十余年的技术积累,其成熟领先的通信声学核心技术以及复杂场景下的软硬件降噪技术能够有效帮助搜狗提升智能语音硬件的远场交互体验,进一步巩固搜狗智能语音产品在行业的领先位置。” 原文章作者:投资界,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-13
    最后回复 当诠忆 2020-1-13 13:00
    1923 0
  • 【首发】获数千万元Pre-A轮融资,声加科技要解决复杂场景下的“语音交互”
    【猎云网北京】1月13日报道 近日,智能听觉领域的创新公司——声加科技对外宣布,其已于19年11月完成数千万元的Pre-A轮融资,由厦门半导体投资集团领投、搜狗跟投,资金将主要用于声学算法的持续迭代、部分技术的授权,以及开拓新市场、优化商业模式等方面,实现为客户提供模组、整体系统等多样形态的产品和服务。 在此之前,声加科技还曾获得由中科创星和万魔声学参与的天使轮融资。 (声加科技CEO邱锋海) 厦门半导体表示,智能语音市场增长潜力巨大,但现有声学技术的商业应用依旧处于初级阶段,主要涉及物理声学等基础学科的声学技术,其中的语音前端处理便是实现语音交互的瓶颈之一。而要解决语音前端的诸多问题,需要像声加科技这样具有多年声学前端处理技术积累的团队,不断改善算法从而提升语音信号处理质量,进而提高各种环境下的语音识别率。声加的技术均为自行研发,其能提供全场景的前端语音处理方案,包括近场到远场语音增强、语音唤醒、语音命令词识别等全系列算法、模组解决方案,团队技术实力强劲。 另一位投资方搜狗则表示,本次投资声加看重的就是声加在声学和语音领域十余年的技术积累,其成熟领先的通信声学核心技术以及复杂场景下的软硬件降噪技术能够有效帮助搜狗提升智能语音硬件的远场交互体验,进一步巩固搜狗智能语音产品在行业的领先位置。 声加科技是一家专注于通信声学核心技术的创业公司,致力于在复杂场景下,为人与人通信、人与机器交互提供更清晰、更舒适、更自由的使用体验,最终实现人机完全交融的愿景。 随着智能手机与平板电脑的长足发展,我国智能终端产业已形成高度成熟的供应链。在家电的语音控制应用开始爬升、智能音箱被看作是家庭端的流量入口后,真正做到无线化的TWS耳机,因为集通话、健身追踪、语音助理等功能于一体,并得益于与手机协同使用的场景,被寄予“万物互联”交互入口的期望,已逐渐成为当前市场的最强热点。权威报告显示,TWS耳机不仅保持着高度增长的市场规模,国内市场更是因为华为、小米、OPPO等手机厂商的参与,显得多元又创新。 据声加科技CEO邱锋海介绍,在经历了技术探索和市场启动两个阶段后,以真无线耳机为代表的智能语音产品,正在给人们带来更好的交互体验并改变着用户的习惯。智能语音产品主要有前端语音处理、语音识别、语音合成和自然语言处理四个技术环节。其中,作为流程第一步的声学前端处理,相当于扮演者人类“耳朵”的角色。 (声加科技的核心技术及应用场景) 2018年年初,依托于中科院声学所人才和科研资源成立的声加科技,凭借团队十余年的技术积累,在近、中、远场的语音交互上,都做了技术研发和市场实践。产品形态包括提供领先的复杂场景下的“端”上的语音处理方案与及技术,以及从芯片、模组、PCBA到工业设计的一站式产品方案。 其中,在近场语音交互场景中,声加科技根据其语音信号模型,成功研发包括SVE AI单麦、双麦通话降噪方案、FBmic+双麦通话降噪方案、双麦+骨导(VPU)降噪方案、AI+双麦通话降噪方案、耳机多麦克阵列通话降噪方案、小资源关键词唤醒(KWS)有限语音命令方案等。 在远场语音交互场景中,以智能音箱为代表,要面对回声、混响、动态范围的挑战。声加科技可以实现360度全方位唤醒、回声抵消、混响抑制、声源定位、定向拾音、噪声抑制、精准识别及唤醒、动态范围控制等,可满足复杂场景5米距离的语音交互需求。其远场拾音解决方案还可广泛应用在智能穿戴产品、笔记本、电脑、智能车载、智能能家居智能玩具、机器人等多种产品。 目前已落地的应用产品包括OPPO Free ENCO真无线耳机、华为FreeBuds悦享版TWS耳机、荣耀Flypods青春版TWS耳机、小米Air系列TWS耳机、小米户外蓝牙音箱、万魔EM001耳机、万魔EM004耳机、京东京鱼座TWS耳机等。终端授权设备总数近400万套。2020年计划研发更低功耗的2MIC麦克风阵列芯片和模组,并将市场扩大到工业、医疗、教育等场景。 (声加科技部分产品展示) 过去几十年里,国内音频消费市场的需求长期处于两极分化的状态:一个极端是极度发烧,另一个极端是只要声音够响、能听懂。然而,2014年11月,亚马逊的Echo智能音箱横空出世,声学和AI的结合让很多高性能的声学算法需要分别在终端和云端实现并优化,高指标的需求让声学从“隐学”几乎变成了“显学”。随后也引发了包括智能音箱、真无线智能耳机等音频产品的火爆,声学应用变得如火如荼。 “尽管目前各家都宣称,语音识别的正确率高达95%以上,但这项数据是建立在实验环境之下,而现实中的对话/通话环境往往是复杂而多变的。比如在嘈杂的咖啡厅,高速行驶的地铁里,移动中的声源等等。这就要求声学前端处理技术不断改善,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,提升语音信号处理质量,进而提高各种环境下的语音识别率。这也是声加团队要致力突破的方向。”邱锋海表示。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-13
    最后回复 镘怃 2020-1-13 12:35
    2371 0
  • 首发 | 获数千万元Pre-A轮融资 要解决复杂场景下的“语音交互”
    近日,智能听觉领域的创新公司——声加科技对外宣布,其已于19年11月完成数千万元的Pre-A轮融资,由厦门半导体投资集团领投、搜狗跟投。这也是声加科技继中科创星和万魔声学后又斩获的两大知名资本,将主要用于声学算法的持续迭代、部分技术的授权,以及开拓新市场、优化商业模式等,实现为客户提供模组、整体系统等多样形态的产品和服务。 声加科技CEO邱锋海 厦门半导体表示,智能语音市场增长潜力巨大,但现有声学技术的商业应用依旧处于初级阶段,主要涉及物理声学等基础学科的声学技术,其中的语音前端处理便是实现语音交互的瓶颈之一。而要解决语音前端的诸多问题,需要像声加科技这样具有多年声学前端处理技术积累的团队,不断改善算法从而提升语音信号处理质量,进而提高各种环境下的语音识别率。声加的技术均为自行研发,其能提供全场景的前端语音处理方案,包括近场到远场语音增强、语音唤醒、语音命令词识别等全系列算法、模组解决方案,团队技术实力强劲。 另一位投资方搜狗则表示,本次投资声加看重的就是声加在声学和语音领域十余年的技术积累,其成熟领先的通信声学核心技术以及复杂场景下的软硬件降噪技术能够有效帮助搜狗提升智能语音硬件的远场交互体验,进一步巩固搜狗智能语音产品在行业的领先位置。 声加科技是一家专注于通信声学核心技术的创业公司,致力于在复杂场景下,为人与人通信、人与机器交互提供更清晰、更舒适、更自由的使用体验,最终实现人机完全交融的愿景。 随着智能手机与平板电脑的长足发展,我国智能终端产业已形成高度成熟的供应链。在家电的语音控制应用开始爬升、智能音箱被看作是家庭端的流量入口后,真正做到无线化的TWS耳机,因为集通话、健身追踪、语音助理等功能于一体,并得益于与手机协同使用的场景,被寄予“万物互联”交互入口的期望,已逐渐成为当前市场的最强热点。权威报告显示,TWS耳机不仅保持着高度增长的市场规模,国内市场更是因为华为、小米、OPPO等手机厂商的参与,显得多元又创新。 据声加科技CEO邱锋海介绍,在经历了技术探索和市场启动两个阶段后,以真无线耳机为代表的智能语音产品,正在给人们带来更好的交互体验并改变着用户的习惯。智能语音产品主要有前端语音处理、语音识别、语音合成和自然语言处理四个技术环节。其中,作为流程第一步的声学前端处理,相当于扮演者人类“耳朵”的角色。 声加科技的核心技术及应用场景 2018年年初,依托于中科院声学所人才和科研资源成立的声加科技,凭借团队十余年的技术积累,在近、中、远场的语音交互上,都做了技术研发和市场实践。产品形态包括提供领先的复杂场景下的“端”上的语音处理方案与及技术,以及从芯片、模组、PCBA到工业设计的一站式产品方案。 其中,在近场语音交互场景中,声加科技根据其语音信号模型,成功研发包括SVE AI单麦、双麦通话降噪方案、FBmic+双麦通话降噪方案、双麦+骨导(VPU)降噪方案、AI+双麦通话降噪方案、耳机多麦克阵列通话降噪方案、小资源关键词唤醒(KWS)有限语音命令方案等。 在远场语音交互场景中,以智能音箱为代表,要面对回声、混响、动态范围的挑战。声加科技可以实现360度全方位唤醒、回声抵消、混响抑制、声源定位、定向拾音、噪声抑制、精准识别及唤醒、动态范围控制等,可满足复杂场景5米距离的语音交互需求。其远场拾音解决方案还可广泛应用在智能穿戴产品、笔记本、电脑、智能车载、智能能家居智能玩具、机器人等多种产品。 目前已落地的应用产品包括OPPO Free ENCO真无线耳机、华为FreeBuds悦享版TWS耳机、荣耀Flypods青春版TWS耳机、小米Air系列TWS耳机、小米户外蓝牙音箱、万魔EM001耳机、万魔EM004耳机、京东京鱼座TWS耳机等。终端授权设备总数近400万套。2020年计划研发更低功耗的2MIC麦克风阵列芯片和模组,并将市场扩大到工业、医疗、教育等场景。 声加科技部分产品展示 过去几十年里,国内音频消费市场的需求长期处于两极分化的状态:一个极端是极度发烧,另一个极端是只要声音够响、能听懂。然而,2014年11月,亚马逊的Echo智能音箱横空出世,声学和AI的结合让很多高性能的声学算法需要分别在终端和云端实现并优化,高指标的需求让声学从“隐学”几乎变成了“显学”。随后也引发了包括智能音箱、真无线智能耳机等音频产品的火爆,声学应用变得如火如荼。 “尽管目前各家都宣称,语音识别的正确率高达95%以上,但这项数据是建立在实验环境之下,而现实中的对话/通话环境往往是复杂而多变的。比如在嘈杂的咖啡厅,高速行驶的地铁里,移动中的声源等等。这就要求声学前端处理技术不断改善,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,提升语音信号处理质量,进而提高各种环境下的语音识别率。这也是声加团队要致力突破的方向。”邱锋海表示。 编辑 | 宋梦真 原文章作者:铅笔道,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-13
    最后回复 赴疱筏 2020-1-13 10:54
    1078 0
  • 从音箱到智能平台的进化,语音交互能开启一个新时代吗?
    两年前,很多人还认为智能音箱只是玩具,但据IDC报告显示,智能音箱2019年一季度全球出货量达到2320万台,当季中国智能音箱市场则首次破千万大关,达到1122万台,同比增长787.2%。智能音箱开始真正进入我们的生活,爆发式增长背后,这只是一场更大战争的序章。 智能音箱的五年之变 被誉为「中国AI技术开发者盛宴」的百度AI开发者大会再次召开,其中备受瞩目的,是当下正极速攀升的小度。作为国内智能音箱市场头把交椅的小度此次不仅发布了多项重磅信息,还提出了「智能音箱不再是音箱」的行业关键变革期信号,智能音箱毫无疑问将会在未来生活中扮演重要角色,但是如果回顾下智能音箱的发展史,时针还是要回拨到5年前。 智能音箱的鼻祖,毫无疑问是亚马逊Echo。2014年11月,亚马逊低调发布了智能音箱Echo,这款被产品发布之初并没有被寄予厚望,它的诞生只是在对抗iPhone的Fire Phone遭遇惨败后,匆匆上线的一款替代产品而已,但当偶然将Echo与其他公司生产的智能灯泡和智能温控器连接起来之后,亚马逊很快意识到Echo可以成为智能家居的枢纽。 在 Echo 面市后不久的 2015 年,大洋彼岸的京东火速与科大讯飞成立了一家合资公司灵隆科技,并在 2015 年 6 月发布了一款名为叮咚智能音箱的产品。遗憾的是由于智能音箱在京东集团的战略定位逐渐边缘化,合资公司的战略分歧以及人事动荡等方面原因,京东错过了抓住语音交互入口的机会,叮咚音箱造成的影响与亚马逊Echo也完全不可同日而语。 Echo除了语音点歌,还可以提供叫Uber、订购Pizza、查询天气甚至银行账户等服务,这款新颖的智能硬件在市场上出人意料的受到了消费者的欢迎,这让亚马逊重新审视了 Echo 的意义,并开始将所有资源都倾向给 Echo。2016 年年底,Echo 系列产品在美国的销售量达到 700 万,也正是在这一年亚马逊逐步将 Echo 背后的语音助手 Alexa 做成了开放平台。同样是 2016 年,Google 正式推出了智能音箱 Google Home,产业风向标随之开始转向。 时间转瞬来到2017年,Echo的大卖让国内厂商意识到,智能音箱作为语音交互入口平台,大概率也会是 IOT 时代最重要的入口。在短短几个月的时间里,BAT和小米等大大小小的厂商相继入局。在一众玩家中,阿里巴巴凭借着强大的电商渠道和低价策略率先杀出重围,此后的一年多时间里,天猫精灵迅速以 110 万出货量跻身全球第三。 但天猫精灵的优势并没有维持太久,在科技巨头们密集的动作影响下,智能音箱未来走向何方也前所未有的迷茫和混乱,但众多玩家需要认清的残酷事实是,智能音箱并不是硬件创业热潮的延续,而是 AI 时代的第一个实体载体,这注定是一场关乎技术、生态和商业等综合实力的竞争。事实上,进入2019年,智能音箱的市场格局风云突变。 Canalys、Strategy Analytics和IDC三家机构的报告数据 一方面,以技术见长的谷歌开始厚积薄发,呈现出后来居上的态势,美国著名研究型风险投资公司Loup Ventures更是预测,谷歌智能音箱销量或将在2023年反超亚马逊。另一方面,大洋彼岸的小度也凭借领先的AI技术和渠道优势,在第一季度以330万台的销量拿下国内智能音箱出货量冠军。 中美两大搜索巨头同时成为智能音箱市场最重要的玩家,背后并非偶然。智能音箱并不只是一个音箱的躯壳,而是一个不断进化迭代的 AI载体。智能交互是智能音箱的核心能力,要提供更自然便捷的人机交互体验就要有足够强的AI技术,这背后还涉及互联网内容、服务和IoT生态,而这些正是以技术见长的搜索巨头们擅长的优势。 智能音箱的路线之争 亚马逊和谷歌在智能音箱市场展开了激烈的竞争,这主要源于亚马逊最早看到了智能音箱在智能家居、购物、内容消费等领域的想象空间,而谷歌则是在看重语音交互作为下一代搜索的前景。两大巨头的不同思考,也注定了智能音箱市场的不同发展路径:前者依靠多年构建平台的生态协同,用尽量多的场景增加使用黏性;后者则借助智能助手病毒般扩散,在海量的设备和数据下让AI不断迭代进化。 类似的竞争也在中国进行着。智能音箱在中国市场经历了四年发展,百度、阿里双巨头的市场格局已经趋于稳定。无论在阿里还是百度眼中,智能音箱拥有无限的使用场景,可以连接一切可以连接的事物,也会是智能设备的控制中枢,但百度在这个基础上,却更希望让智能音箱成为搜索和服务的入口,以及百度AI战略落地的硬件载体,这也是为什么小度会率先推出带屏智能音箱的原因。 百度智能生活事业群组总经理景鲲曾这样解释道,「整个科技行业都迫切需要一个新场景或者新设备来承载AI的能力和资源」,显然智能音箱在他心目中更像是一个为AI而生的新物种。智能音箱开启了语音交互的时代,它所构建的场景天然更合适搜索、通讯和内容分发,这些恰巧是百度作为搜索巨头的核心战场。 事实上,在场景的拓展路径上,百度和阿里也呈现出截然不同的方向。百度是基于场景,包括出行场景的小度语音车载支架、家庭场景的小度电视伴侣和小度在家,都是希望将智能语音助手搭载在尽可能多的第三方设备上,手机、电视、盒子、手表、耳机,甚至汽车后视镜,都是小度智能音箱战场的延伸。天猫则希望覆盖更多细分人群,从面向儿童的天猫精灵儿童智能音箱,到面向女生的天猫精灵 QUEEN 智能语音美妆镜,都是为了服务阿里的电商生态。 借助细分人群的扩散,天猫精灵迅速实现了累计千万台的销量,并且天猫精灵AI助手在这个过程中朝着开放平台进化,但这毕竟只是基于阿里自己的生态,缺乏足够的使用场景,势必无法让智能音箱的功效最大化。和其他智能音箱巨头不同的是,小度从一开始的目标就不是希望通过硬件赚钱,或者说卖出更多硬件,而是希望打造下一个时代的搜索入口。 小度也是目前为止唯一一个从硬件到框架,再到平台、开发生态、生态应用系统、终端硬件全覆盖的AI应用生态平台。通过构建这一生态,百度将完成对阿里、华为等刚刚起步的竞争对手的降维打击,并能够与亚马逊、Google等对手一较高下。 截至2019年6月,搭载小度助手的智能设备激活数量已达到4亿,小度助手的月交互次数也达到了36亿,在一年不到的时间增长超过1800%。目前百度已经拥有中国最大的对话式语音技能开发者社区,有超过3.3万名的开发者,超过2400项优秀技能,这一数字相信还会随着接入更多硬件平台而大幅度提升。 小度智能音箱的成功也给接下来智能音箱的发展指引了明确的方向:①智能音箱出货量虽仍在高速发展,但终究有进入饱和的一天,那将进入比拼服务和内容的阶段,哪个平台承载的内容服务更多,将更有机会取胜。②目前智能家居生态呈分散状态,缺少统一入口,市场整体规模持续增长,智能家居是智能音箱的必争之地,只有开放才能容纳更多的生态和开发者。③智能音箱作为物联网的入口,需要进入更多的场景,技术将会是决胜的关键。百度软硬一体化战略的成功,也势必会让更多科技巨头进入到硬件领域。 智能音箱模式之争本质上没有对错可言,但我们需要认清一个事实,智能音箱热潮的实质是AI之争,归根结底是未来人工智能的入口和焦点。如今的小度仍在不断进化,不仅集成了百度各项领先的技术能力,也不断被百度的各类数据所喂养,这些数据不仅来自百度自己的用户平台,也来自接入小度的越来越多手机、空调、冰箱等终端。 音箱变革的奇点已来 (罗杰斯创新扩散理论) 1962年,一位叫埃弗雷特·罗杰斯(E.M.Rogers)的美国学者,提出了众所周知的“创新扩散理论”。当体系中接受创新的人数达到某个数量,其后的创新会自行被大家所接受,这个被称为“临界大多数”的特定数量就是创新扩散过程中的引爆点。在引爆点之后,每增加一小部分,采用的都会带来更多的采用者。 短短5年时间,智能音箱经历了一系列的行业认知变化。伴随着智能手机出货量的连续疲软,智能音箱正成为手机之后新世界的主引擎。从市场一片空白再到微软、百度、阿里、谷歌、苹果等几大科技巨头纷纷加入战场,如今智能音箱不仅成为新的生活必需品,也真正意义上成为了叩开AI时代大门的第一个硬件载体。 如今智能音箱的引爆点似乎已然出现,在7月3日的百度AI开发者大会中,景鲲正式宣布小度第三方技能使用时长已超过音乐使用时长。而三星则在几天前在美国和韩国推出Bixby语音助手应用商店,借助这个应用商店,开发商将他们的Bixby应用程序推广到三星全球超过5亿台设备上。 看似不相关的两件事,却预示着智能音箱发展过程中的一个关键的节点,那就是智能音箱真正在进入我们的生活,围绕语音交互构建的开发生态正在形成,智能音箱真正意义上变成服务的载体,而不再只是单纯的硬件。 景鲲对此一语定调,「这是一个里程碑式的时刻——智能音箱已不再是音箱」。如今智能音箱不再是一款玩具,而是成为人工智能的强大载体,而小度智能音箱第三方技能使用时长的增长也成为打开未来的一把钥匙。 景鲲表示,「这有点像智能手机时代,智能手机现在第一大应用已经不再是打电话,我们在手机的APP上找信息、购物、看视频,这种第三方生态已经成为了智能手机的第一大应用。而今天,在智能音箱上这种事情又再次发生了」。 一方面,这意味着智能音箱将成为瓜分互联网流量的重要载体,围绕使用时长及频次的流量发生了转移,也意味着智能音箱这个破局者在重塑原有互联网的产业走向。分发硬件之王的交椅由单一的手机端向音箱等多种新兴终端过渡,随之衍生的产业链规则也将改写,像叫车、外卖、购物等服务,都有可能通过智能音箱而不是手机完成。 另一方面,作为语音交互的超级入口,尤其是5G时代到来,智能音箱将不仅能够积累用户的语音习惯,还能收集用户对生活服务的个性化需求。当这些的小数据累积起来,就会上升成为社会的整体大数据,这种连接或许将真正构建一个“万物互联”的大数据平台,并构成未来世界所有联结关系的支柱。 以手机为载体的旧世界正在失去活力,以智能音箱为载体的新世界正在敞开大门,当智能音箱市场已不只是“智能音箱”那么简单时,变革奇点已经到来。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-11
    最后回复 益诣咀 2020-1-11 19:25
    4254 0
  • 智能耳机上演“神仙打架”:语音交互新宠诞生记
    交互习惯的变革,意味着巨大的产业机会。而无论智能音箱还是智能耳机,其热潮都说明了一点:语音交互,就是巨头们笃定的未来交互方式。 因此,在5G、AIOT正式到来之前快速抢占语音这块市场的领地和话语权,也就显得愈发重要。 但是,经过一系列发布会、补贴、降价、促销等骚操作之后,智能音箱的“千箱大战”已经基本尘埃落定。最近我们发现,一场关于智能耳机的用户争夺战又吸引来了众多巨头玩家的窥探。 微软正式宣布推出无线智能耳机对标苹果的AirPods,亚马逊与高通共同开发Alexa助手的TWS蓝牙耳机,谷歌官方也表示会推出新一代的智能耳机,华为的智能耳机去年推出之后不断进行功能迭代,就连电商平台苏宁都推出了自己的智能耳机小Biu…… 那么,这一轮蹿升的智能耳机热潮,究竟是另一场昙花一现的虚火,还是真能照亮语音交互的未来? 日渐激烈:智能耳机的蛮荒战场 2016年,苹果推出AirPods,在短短一个月时间内超过Beats和Bose两个老牌厂商,成为美国最受欢迎的无线耳机;亚马逊“Alexa + Echo”的成功,也让“AI+语音”的技术爆款组合开始显露锋芒。二者共同为如同野兽一样敏锐找寻新猎物的智能硬件厂商注入了一剂强心剂。尽管当时无线耳机还是一个很小众的市场,也吸引来了无数跃跃欲试的窥伺者。 不过,一年之后,巨头云集的智能耳机产业依然如同一块蛮荒的处女地,既没有人敢说自己是绝对的领头羊,也没有人建构出标准化的行业范式。到底发生了什么? 关于这场智能耳机的蛮荒战争,我们可以大致分为三个核心阵营: 1. 科技公司。其实比苹果更早推出智能耳机的是是igyige美国的创业公司。2016年,Doppler Lab推出了一款智能降噪耳机Here one,不仅有降噪功能,还能识别环境、进行声音增强。而在苹果大获成功的AirPods之后,谷歌也很快推出了无线耳机Pixel Buds,主打语音实时翻译;三星推出了自家的Gear IconX,智能语音创业公司出门问问也跟风推出了耳机产品TicPods Free,BAT、华为、微软、亚马逊当然也没闲着,相继安排上了语音蓝牙套件。 2. 传统耳机品牌。在科技巨头们的攻势下,传统耳机厂商最先感受到了危机,他们纷纷为产品加上了语音交互功能,试图避免用户被分流。2018年,捷波朗率先发布Elite 65t无线耳机,支持微软、谷歌等的语音助手;索尼索尼呃也在2018年MWC上推出了Xperia Ear Duo无线耳机。其他诸如Bose、漫步者等耳机厂商也都紧跟着风口。 3. 服务厂商。这类玩家往往有着清晰而明确的场景诉求和消费群体。比如运动产品,用户运动时手机和有线耳机都略显累赘,无线耳机与语音助手也有了独立存在的必要性。咕咚和1more合作同样推出智能耳机,搭载腾讯叮当语音助手。甚至还出现了美团外卖专为外卖骑手设计的智能耳机。内容产品自然也不愿意放过这个重要的信息入口,咪咕音乐就联合科大讯飞推出了莫斯比无线耳机。 至此,我们可以看到智能耳机已经不再仅仅作为作为手机配件而存在,而是以单独的创新型语音交互硬件的身份进入了产业视野。但这一切终归要由消费市场买单。那么,这场大战中,到底有多少产品能够被消费者所记住和铭记呢?赢家目前看来还是苹果。 不难发现,在智能耳机这一领域,科技公司并没有比传统厂商领先多少,传统厂商的既有优势也没能成为杀手锏。既然市场还如此原始,那智能耳机究竟是凭什么引人入胜的呢? 智能耳机这块蛋糕,究竟甜在何处? 智能耳机的价值,与智能音箱在某些地方是高度相似的,比如抢占语音交互入口、布局AI生态之类的。这对企业来说或许有重要战略意义,但消费者想要感知到具体价值却需要漫长的“养成”。 幸好,除了战略意义,智能耳机在现实场景中也自有其特殊之处。 其中一个就是智能耳机+AI功能,不需要对硬件进行非常大的更新,成本也更容易控制,用户不需要付出太高溢价就可以享受到更便捷易用的智能功能,比如语音输入、语音控制等等,这种市场端的利好是智能音箱所不具备的。 同时,相比音箱、手机这类语音终端,智能耳机更加随身、私密,对于环境噪音的处理也更容易,用户在交互时也更加自然。显然,对于一些不那么中二的用户来说,对着耳机说话比对着音箱大喊“AABB”的羞耻度要小多了。 目前来看,智能耳机依然无法脱离手机、音箱等硬件而单独存在,这成为其被产业端诟病的核心要素。因为只要它还必须是其他产品的附庸,那么它始终只是改良而非创新,这是其发展前景大受限制。 而更令人悲伤的是,智能耳机产业至今还没有“基本法”。也就是说,无论是加上wifi硬件就管自己叫“智能耳机”,还是拥有高性能的独家语言算法,都可以打上“智能”的招牌。反正都是改良,体验带来的差距到底有多大,各家只能自说自话了。 撬动耳朵,智能耳机还差哪些“杀手锏”? 因此,如果想要弄清楚智能耳机的是是非非,有必要对我们认为的智能耳机进行一个基本的定义或者共识(仅供参考): 首先,能够与智能硬件协同操作,实现体验升级。 由于连接的设备还不够多,智能耳机目前能实现的功能还并不够惊艳,或者说,都能被智能手机所替代,比如查天气、记录运动健康数据等等,这样的语音交互就很难实现用户的黏性和留存。 但目前来看,作为新兴交互方式的智能交互到底如何与各类硬件进行交互,并没有太多知识储备可以参考,智能耳机的设计上依然沿用着智能手机、手表的体验逻辑。尽管Google曾经发布过一份可参考的交互规范文档,但主流的选择还是通过“第三次对话还没弄清用户需求就算彻底失败”之类的“原始”方式来规避用户的不良体验。 另外,有交互能力,实现流畅的自然语言理解功能。 对于发烧友或者时尚用户而言,语音交互作为一个很好的噱头存在,将智能耳机当作另一种逼格单品也未尝不可,但这样用户的新鲜感很难持续太久,久而久之不过又变成了一个在“吃灰”的盲目剁手产品而已,智能耳机作为交互硬件的作用也就无法体现。 几乎所有厂商都试图将Siri、Google Assistant、叮咚、小度等智能语音助手的接入,让多轮对话、语义理解等AI能力真实地通过耳蜗传达给用户,才是智能耳机从概念走向真实的重点。 而智能耳机目前亟待解决的,还有信息的远场传递与接收问题。一旦离开了智能手机的一定范围,用户就会面临“失联”的烦恼,并且需要重复连接。 新款的AirPods就试图解决这一问题,比如配备了苹果最新的H1耳机芯片,让连接动作更加稳定和快速。切换设备的速度是之前的 2 倍,打电话时候的连接速度是之前的 1.5 倍。当然,真正“无缝”的连接体验恐怕还需要5G+AIoT的全面覆盖,才有可能实现。 缺乏独立的感知、存储以及计算能力,又依靠高密度的网络覆盖实现云平台附载,短时期内都是智能耳机的短板所在,也是各家努力突破的方向。 只有解决了这些问题,智能耳机才不会总是作为“配角”出现在发布会可有可无的产品介绍PPT上。而消费者的购买理由也才能从“刚好想换耳机,而它刚好带了智能”,变成“只要用过就再也不愿意回到过去”的真需求。 语音交互的新未来应该向何处去? 从几家的最新动作来看,我们还可以发现两个有趣的产业趋势: 趋势一:在硬件创新上,更新幅度很小。 在最新款的AirPods,几乎看不到什么外形上非常大的变化。其他几家在设计上也都保持着近乎于保守的冷静。反倒是都在续航、元器件上不断地下功夫,比如配备了无线充电等等,试图让使用更友好。这侧面说明了,厂商们都把智能耳机的“致用”排在了第一顺位,而非“竭泽而渔”的营销噱头,发展态势更加健康。 趋势二:在语音交互上,技术开始生态化。 智能耳机涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解等等NLP核心技术。而这个技术体系的进展本身就很缓慢,AirPods也只是在最新款的产品上,也只是更新了语音直接唤醒Siri的功能。 与智能音箱相比,厂家们对待智能耳机的态度显然要谨慎和耐心许多,英特尔、ARM、谷歌、亚马逊、Facebook等都纷纷牵头成立了自己的产业联盟,试图在产业爆发之前,以生态资源将产业上下游先收拢进自家的鱼塘。 未来,当语音交互真正成为主流方式并进入精细化竞争的时候,很可能就不是一家算法公司与几个硬件企业之间的PK,而是技术平台+硬件联盟之间的对决。 智能耳机作为一个消费级产品,其软硬件一体化结合的紧密程度,对AI算法、AI交互、外观设计等等的依赖,都将起到绝佳的孵化作用。以目前入局者的体量和野心来看,关于智能耳机的争夺只是刚刚拉开序幕。 当他们看到产业全景之后,会发现所处的产业地位是一片纵横捭阖的交通要地,这里围绕着老中青小各种代际人群的窃窃私语,随手一抓都是无尽的宝藏。这时候,他们会无比感谢曾经的自己,在经历了智能音箱的混战之后,依然笃信着语音的价值。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-11
    最后回复 蔺娅斑 2020-1-11 18:34
    5087 0
  • 百度“鸿鹄”语音交互芯片发布 百度飞桨与华为麒麟深度合作
    集微网7月3日报道(记者 张轶群)在今日举行的“Baidu Create 2019”百度 AI开发者大会上,百度发布了远场语音交互芯片——“鸿鹄”,同时,百度宣与华为麒麟达成深度合作,共同打造深度学习框架与芯片。 去年开发者大会上百度推出云端AI芯片“昆仑”,而此次推出的“鸿鹄”是一款边缘类远场语音交互芯片,“鸿鹄”采用HiFi自定义指令集,双核DSP核心,平均功耗为100mW。该芯片将被应用在车载语音交互、智能家居等场景中。 会上,百度首席技术官王海峰与华为消费者BG软件总裁王成录还共同宣布,百度飞桨(PaddlePaddle)深度学习平台与华为麒麟芯片将开展深度合作,双方将打通深度学习框架与芯片,为AI时代打造最强算力和最流畅的应用体验。 据了解,百度飞桨是中国首个,也是目前国内唯一开源开放、功能完备的深度学习平台。王海峰认为,在智能时代,深度学习框架就是智能时代的操作系统。而华为麒麟则是华为自研、全球领先的端测AI芯片平台,开创了端测AI计算的行业先河。两大“国货之光”联手,将为中国AI构筑核心的“技术地基”,满足中国AI快速、持续发展需求。 据王海峰介绍,此次合作,将充分发挥飞桨和麒麟各自在软、硬件上的优势,合作内容包括三方面: 第一,百度飞桨将与华为麒麟芯片在HiAI Foundation底层全面对接,最大限度释放芯片硬件能力,为端侧AI提供最强劲的算力; 第二,双方将共同优化经典模型,让搭载麒麟芯片的设备运行得更加流畅,为用户提供绝佳的体验; 第三,通过深度学习框架的性能和功能诉求,驱使芯片不断提升算力,驱使下一代芯片的快速演进。 华为消费者BG软件总裁王成录表示:“麒麟与飞桨深度对接,将为端侧AI提供最强劲的算力。同时,双方将协作探索基于飞桨平台和麒麟芯片的深度学习模型训练与预测,用全球领先的端测AI芯片和深度学习平台,打造最好的深度学习运行效率,充分发挥软硬件结合的优势,促进更多AI应用落地,惠及更多用户,切实推动中国的产业智能化。” 王海峰表示,百度和华为合作由来已久,2017年,百度和华为签署了全面的战略合作协议。此外,王海峰还宣布,百度大脑正式升级为5.0,在算法突破、计算架构升级的基础上,实现AI算法、计算架构与应用场景的融合创新,成为“软硬一体的AI大生产平台”。(校对/团团) 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-11
    最后回复 向胀氦 2020-1-11 18:08
    4419 0
  • “Baidu Create 2019”小度发布全双工免唤醒能力 打开语音交互新大门
    想用智能音箱随机欣赏一首4分钟的歌,结果花了1分钟在反复唤醒沟通?唤醒智能音箱后多说了两句话,它就听不懂,兜圈子跟你唠嗑?生活中与AI尬聊的情况比比皆是,唤醒一次又一次,让一首歌或节目停停播播,严重影响收听的流畅度和体验,这对于累了一天本来要放松的九九六汪们实在是不友好…… 为了解决上述“尬聊”问题,让AI更智能地服务用户,小度在“Baidu Create 2019”百度 AI开发者大会上正式发布全球领先的全双工免唤醒能力,让语音交互体验向前再迈一大步。 (百度副总裁、百度智能生活事业群组(SLG)总经理景鲲) 全双工(Full Duplex)作为一项通讯传输术语,指可以同时(瞬时)进行信号的双向传输(AB且BA)。当这项技术被百度应用于智能语音领域,则创造性地实现了小度智能音箱的全双工免唤醒能力:不仅实现了“一次唤醒,多轮交互”,还能在与他人对话的同时互不干扰地实现人机交互,大大改善和提高了用户体验。 为了实现在人机对话的过程中不受干扰,全双工技术还有另一个非常关键的技术突破,被称之为“拒绝反应”,即在全双工技术加持下,小度能识别出用户说的话是不是给它的指令,能过滤掉无效干扰信息,再做出反应。更神奇的是,小度在发声的同时也可以接受用户下达的指令,不像从前需要安静的等它说完后用户才能再开口。这就是全双工所指的“瞬时”、“双向”,更接近人与人之间的自然对话。 百度创始人、董事长兼首席执行官李彦宏在大会现场也演示了全双工免唤醒能力:“小度小度,给一首莫文蔚的歌”,“为你精选莫文蔚好听的歌曲”,“其实不仅仅是中文,我们的小度也懂英文,更加神奇的是,中英文混杂的时候它也明白。来一首Lady Gaga的Shallow”,“我们一起听Lady Gaga”……音乐场景的交互过程中,屏幕左下角显示“彩色小度”,这就代表小度已经处于全双工免唤醒功能状态下。 (百度创始人、董事长兼首席执行官李彦宏) 在听音乐、有声读物的时候唤醒小度,“彩色小度”就会在屏幕左下角出现,只要“彩色小度”在,“收藏这首歌”、“换一首”、“帮我订阅”、“大点声”等等所有和音乐、有声读物相关的操作都可以实现无缝衔接,简直不要太方便! 不仅如此,全双工免唤醒的能力也开放给第三方技能,提升技能的交互体验。目前在部分技能下(如种树),只要“彩色小度”在,所有技能相关的操作也都可以无缝衔接。全双工免唤醒能力让用户与小度之间的沟通变得更加顺畅,在交互体验上给人的感受更真实自然、更有“人情味儿”。 除了全双工免唤醒能力,新发布的小度助手5.0还有全球首创的家庭信息流和行业领先的家庭通讯与通知功能。家庭信息流为千万家庭推送为他们量身定制的信息推荐,小度的家庭通讯与通知能力可以通过网络为用户提供语音视频等服务,用户可以通过小度直接与家人或外界沟通,例如叫外卖、叫快递等,都是一句话的事儿。 另外,贴心的小度还可以针对不同人群的生活习惯为用户量身定制推荐内容,例如给小朋友设置“定时刷牙”、“定时背英语”提醒,给老人推荐相声,为上班族提供早睡提醒、音乐播放等服务。更强大的智能助手能力,让小度能够为用户提供24小时个性化、人性化的智能服务。 随着包含全双工免唤醒能力在内的小度助手5.0能力的全面升级,智能音箱已不再是音箱,小度正在为更多中国家庭开启智能生活新篇章。目前全双工免唤醒能力已在小度在家系列产品上线,小度在家、小度在家1S已实现全员软件版本升级,小度在家1C也即将在7月份实现全员软件升级,想要摆脱AI尬聊窘境?那就快来小度在家get“黑科技”,享受全双工免唤醒能力带来的畅快语音交互体验吧! 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-11
    最后回复 晋碧安 2020-1-11 18:05
    3004 0
  • 语音交互究竟是不是障碍?
    OTT(Over The Top)是一种通过公共互联网面向电视机传输的由广播电视机构提供视频内容的可管可控服务,其接收终端为智能电视(Smart TV)或者OTT盒子。近年来OTT大屏产业在智能电视、OTT盒子等终端硬件厂商以及视频服务平台等OTT内容方的推动下,吸引人们愿意重回客厅,在电视上花费更多的时间,用户开机和使用时间回升,在线视频直线增长,广告公司、营销公司、应用服务机构等纷纷加入,围绕OTT大屏形成了完整的生态体系。 那么对于OTT行业来说重要组成部分智能语音,大家的认识有多少?对此有网友表示称,我们现在也在做着类似的事情,打开N个tabs,M个windows,X个APPs,Y个devices。等待助手去完成任务的过程可以忍,但自己如泉涌的思绪不能及时表达,不可以忍。 GUI已经发展出丰富的中断层级,可供用户用来暂时或永久的停止一个功能:最小化、暂停、取消、后退、从头重来、后台运行、退出当前功能、退出OS。VUI和CUI尚未形成同样强大的中断功能,但如果要给用户足够的信任感,这是必须做到的,尤其在多任务和多APP的情境下。 下面两个经常被讨论的问题,我并不认为是语音交互的阻碍(也不是VUI、CUI的阻碍):如果语音助手取代的是人类助手,那隐私问题是伪命题,因为它们会发生在所有的"助手"身上。不是说不需要关心和解决它,而是"语音"二字并没有令现有的情况更糟糕。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-11
    最后回复 孟杰秀 2020-1-11 17:34
    4561 0
  • 微信上车了,全语音交互让你牢牢握住方向盘
    开车使用手机的危害有多大? 据公安部统计,25%~50%的交通事故皆由驾驶员注意力分散引发。其中,手机是驾驶员注意力的分散源之一。即便使用车载支架,驾驶员依旧会不可避免地将视线转移到手机上,从而减少了对前面道路的观察。要知道,当你将目光投到手机屏幕上的几秒时间里,车辆可能已经前驶至少十几米,确实存在安全隐患。 开车如何不失联?全语音交互是解法 被信息“捆绑”的我们,很多时候需要在开车时,打开手机收发信息。所以,车上的通讯功能也许不是我们想要的,但却是必要的。 如何解决开车看手机的问题呢?根据统计分析,各种感官给驾驶员提供交通信息数量的比例,视觉占到了80%,是驾驶员获取外界信息最重要的渠道。目前来看,那就是全语音交互了,用听和说,代替看和触控。比如,腾讯就推出了全语音交互的车载版微信。 微信车载版与微信手机版最大的不同点,在于他没有采用手机上依靠触屏交互的方式,提供全语音交互和方向盘专属按钮操控结合的全新交互设计。 方向盘上的微信车载版按钮 车上通讯,为什么是腾讯? 其实,近几年市面上也出了一些主打社交通讯的车载软件,然而,在笔者看来,要想做一款国民级的车上社交通讯产品,还得是腾讯官方出品。 首先,考虑到驾车场景的安全性,熟人社交才是刚需,陌生人社交看上去还是一个伪命题,试问一下,在注意力都放在驾车时,还有多少人会将心思放在与附近的陌生人搭讪、“摇一摇”? 基于熟人的社交,才是车上的刚需。这么看来,必须要有足够的用户池,以及用户现有的关系链。微信上车,就成了顺理成章的一件事。 其次,由于驾车场景对安全性的要求更高,对于应用的稳定性、基础性能有着比手机更高的要求。腾讯官方推出的微信车载版,除了有官方保障的车载场景原生设计、官方持续维护的专属平台之外,还与车企合作打磨,在每一款车型上做了定制化的适配,更能够满足车规级的安全需求。 可以看到,微信车载版目前还有完善的空间,但是作为一个“1.0”级的产品,腾讯还是把用户安全放在了首位。 据了解,驾驶员只需语音交互,或者通过方向盘上的微信按钮,即可唤醒、使用微信车载版,整个过程简单、快捷。微信车载版的功能设计上也保持“克制”,没有过度侵占用户的时间,只提供最基础的沟通功能,比如语音播放未读消息、语音收发消息、收发语音通过等,接收微信位置并发起便捷导航等。而像抢红包、发表情包这样的功能,都做了减法。毕竟开车时还是希望用户更专注在开车,满足必要的沟通需求,处理做重要的信息就够了。“开车也能抢红包”确实具有营销噱头,但目前来看,还并不是用户的刚需,刺激的“红包大战”还很容易造成分心驾驶。 虽然有车载版微信的车型还不多,包括第二代广汽传祺GS4、 2020款长城哈弗F5、以及长安CS75 PLUS等,但也许有一天,微信车载版也会像现在的手机微信一样,成为车上的标配。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-11
    最后回复 特灼拷 2020-1-11 17:05
    2433 0
  • 语音识别人机交互的畅想,让小家电有一双耳朵
    现在很多小家电很受欢迎,比如酸奶机,可以做酸奶、米酒等等,自动料理机,可以做很多种美食。 人机交互语音识别 不过,你会看到家里人都要对着说明书琢磨半天才会使用,年长一点的人看到那么多按键那么小的字就头大了。 现在语音识别技术很好了,速嵌智造认为,人性化的人机交互,就应该是直接说:“榨汁”,或者“煲汤”,就行了。 当然,要克服一些技术问题。 比如,技术上,要解决防水设计下的拾音问题。 还要解决初始化设置问题,当然,这就是一个二维码的事。 原文章作者:匠物志,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-9
    最后回复 裘谦 2020-1-9 19:57
    1026 0
  • 车载语音有迟滞?不怕,AI芯片让人车交互像聊天一样顺畅。
    [爱卡汽车 科技频道 原创] 相比于触控或按键操作,语音控制更贴近人类的使用习惯,将车内交互从“人适应车”变为“人车对话”。通过优化NLU(自然语言理解)并加入NLP(自然语音处理)能力,车机可以提供更为智能的人机交互体验。特别是对于触控屏而言,语音控制极大提升了驾驶中操作的安全性,尽可能避免低头操作而造成视野离开路面的情况。 最近几年中,中国品牌加大了人机交互领域的研发投入,在智能化与网联化方面取得了一定成绩。图为近期推出的新车吉利ICON,搭载由亿咖通科技(ECARX)打造的GKUI 19系统。 GKUI 19系统内置AI智能语音功能,能够实现对话实时上屏,多轮会话、自定义回复、声源定位等,覆盖50个以上垂类出行场景,并支持包括手表在内的智能穿戴设备。 不过,复杂的应用场景和繁多的交互功能对语音控制提出了更高要求。目前的主流解决方案是依托云端的算力对语音进行处理,而云到云、云到端之间存在信息传递延迟,结果便是交互过程存在一定的滞后,用户感受不够流畅。特别是在网络环境不畅的场景下,智能语音的对话反馈、操作速度会受到严重影响,造成不佳的交互体验。 为了贴近汽车使用场景,该芯片还垂直打通了汽车的数据,增强本地逻辑推理等边缘计算的能力。在隐私数据方面,芯片引入了本地加密存储单元,可以更好地包含隐私数据。此外,该芯片的尺寸将显著小于亿咖通现有的E系列多媒体娱乐芯片。 具体来看,这款语音AI芯片支持全球 32种以上语言/方言,并带有全栈语音本地引擎和针对车载场景的本地推理引擎。得益于硬件层面的优化,该芯片内存带宽利用效率比通用框架提升16-32倍,利用硬件加速算法(FFT等),比DSP计算效率提升13倍。 编辑点评:智能语音控制提升了人机交互的友好程度,不仅有助于提升驾驶安全性,还能够实现更加直接的操作。近年来,语音控制正逐步替代传统的按键和触屏操作,在车内交互领域扮演着重要角色。有了车规级语音芯片的支持,车辆离线处理能力将获得显著提升,车载语音交互的前景值得期待。 精彩内容回顾: single 原文章作者:爱卡汽车网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-9
    最后回复 蕾闩蹈 2020-1-9 19:10
    1208 0
  • 爱奇艺HomeAI智能语音交互系统的技术实践
    「免费学习 60+ 节公开课:投票页面,点击讲师头像」 作者 | 爱奇艺研究员 ShaneWang 出品 | AI科技大本营(ID:rgznai100) 本期爱奇艺技术沙龙《语音和语言技术在自然交互中的实践》主题中,邀请了来自爱奇艺、小米等的嘉宾为大家分享了关于语音技术方面的创新以及该技术在应用方面的实践,本期沙龙的干货分享我们会陆续发布,首先跟大家分享的是爱奇艺HomeAI智能语音交互系统及在语音交互系统的相关实践,以下为演讲实录。 今天跟大家分享爱奇艺HomeAI智能语音交互系统,主要分为五个部分,首先介绍HomeAI具体应用的领域,第二部分,跟大家剖析一下语音视频搜索和我们常规理解的视频搜索到底有何不同。第三及第四部分,分别会从新热内容的支持和上下文用户环境这两个角度来跟大家分享一下爱奇艺在视频搜索这个方面所做得工作。最后,我会介绍HomeAI跟视频内容理解结合所产生的一些化学反应。 首先来看HomeAI智能语音交互系统:HomeAI是爱奇艺创新的智能应用和交互方式落地的平台,建立的初衷主要是从用户和视频这两个立足点出发。在用户方面,通过应用常规的语音识别、意图理解等算法进行分析,同时进行一些前沿的调研,比如说用户年龄层的检测,声纹的提取,声纹的比对等方面的算法来提取用户的更加个性化的信息,将这些信息用于后续的处理过程中,以便给客户更加贴心的服务。 在视频内容方面,AI使我们对视频内容的理解方式发生了变化。原来对视频内容的理解主要来源于社区或是人工编辑的标签信息,现在用AI算法去对大量视频内容进行分析,分析内容包括其中的演员、台词、情景、动作等信息,利用分析结果来生成对于视频语义的理解,同时把这些信息不断的封装抽象给上层业务以提供更多的想象的空间。 HomeAI现已应用在爱奇艺各大主要的平台上,包括移动端、TV端、VR设备等,甚至在车载端其都有相关落地应用。HomeAI除了作为语音助手,在语音技术的其他创新应用方面也进行了很多探索,下面我们来介绍有关语音视频搜索方面的内容。 用户会在什么情况下要用语音去进行视频搜索?我总结了以下三种情况,第一种情况是设备的限制,现在很多人家里都有智能音箱,音箱是没有触摸屏、键盘、鼠标就可以去操作的,这时候我们就需要用语音来对他进行控制。第二种情况是用户输入较不方便,比如像家里的智能电视,如果在使用时没有语音摇控器的话,操作者必须在上面搜索打字,上下左右一个一个的移过去,一个一个的敲。第三种情况是面向特殊的人群,如不识字的小孩或者老人,他们无法进行拼音拼写,用语音的方式来进行搜索是最为方便的。 那么,用语音来进行视频搜索和常规的视频搜索到底有哪些不同呢? 第一点,节目名称特别与既定语言产生歧义,现在的剧名越来越有个性,如声入人心,从前有座灵剑山,宸汐缘,都挺好……这些剧名会带来什么问题?在交互上,剧名中的词语可能产生歧义,比如使用键盘鼠标在搜索框里搜“声临其境”时,由于节目名与成语有歧义,系统可能会自动推荐与之符合的节目“声临其境”,但是用户可以选择退回至成语身临其境本身的搜索或者是另外的输入页面。然而,如果是在语音场景下,系统就一定会替用户来做这个决定,用户没有办法对搜索结果进行选择;再比如像“都挺好”,即使这一搜索句式再奇怪,但当我们在搜索框里输入都挺好时,系统依旧会将其作为一个搜索去执行。然而在视频搜索领域,如果这个像音箱这类智能设备本身不知道“都挺好”是一个剧的名称,那么其便会转换成另一模式,比如两年以前你对设备说“都挺好”,智能设备可能会回答你“我也挺好”之类的日常用语。在这种情况下,这些以换一个字的成语作为剧名或者以常见生活短语作为剧名的形式就会对我们的搜索的难度提出一个很大的挑战。 第二,区别是分类方式,在泛类型推荐的情况下,我们将分类情况呈现在UI界面上,在搜索电影或者电视剧时,界面分类情况可供操作者选择,例如按题材、地区等进行分类,但在语音交互情况下,用户无法直观看到系统底层的具体分类情况,用户仅能通过主观概念自行分类,比如用户语音输入“欧美电影”,这时语音解析成为重点问题,我们要思考怎么才能把欧美与美国跟欧洲的合体的关系对应上,这是我们语音视频搜索这个领域需要解决的一个问题。 第三点区别体现在上下文,用户打字是一个相对独立的过程,下一次搜索跟上一次是没有关系的,但在语音沟通的过程当中,用户的输入是一个整体串联的过程。在对当前语音进行处理的时候,系统需要考虑用户上一次说的是什么,当前说的这句话跟上文有没有关系,是否需要进行整合。 以上三条是经总结后,两种视频搜索的方式主要体现出不同的地方,也是我们亟需解决语音技术问题的几个角度。接下来,我们来看爱奇艺在新热内容这一方面做了怎样的适配工作。首先,我们先来看一下整个语音视频搜索的大致流程,目前市面上的智能语音助手大多遵循这样的流程:用户在终端说话,随之语音被发送到服务端,服务端首先进行ASR,即转文字处理,完成ASR后进行意图提取,此举旨在解析用户搜索视频的意图,提取内容包括搜索目标的标题、明星、类型、地区或是出品时间等。在拥有这些结构化的数据后,系统便可以到搜索片库当中进行搜索,最终返回给用户端。 但是,在这其中存在一个问题,用户点播的热点常聚焦在新的、热的电视剧上,我们在上面提到的ASR容易解析出错,这主要是剧名句式问题以及中国的同音字多这一情况造成的,所以直到目前为止分词在业界依然比较难达到非常高的精度。在这三个处理流程中,片库更新的最快,片库更新时间甚至可能先于剧的上映时间,对于ASR而言,这需要上T的语料库去进行语言模型的训练以跟上更新速度。 与之不同,意图识别部分所需语料不及ASR多,但需要对其进行标注,这样一来便形成了如下这种情况:片库中的视频已早早更新,但意图提取未必能及时赶上,这可能需要几周的时间才能把我的意图识别成一个像片名一样的实体,而像“宸汐缘”、“声临其境”包含与常规对话有所差异的字的片名,他们属于不一样的实体类型,ASR要经过数月的过才能使经过迭代的模型囊括这些语料,使得识别结果能够正确。 在系统执行搜索的过程中,系统会认为自己所做的是最正确的决定,并传递给下一个环节,但是在一些搜索中视频的质量其实很差,用户不能得到心仪的搜索结果,但是这个质量很差的结果并不会反馈给前面ASR的模块,这样就会导致整个流程的错误一旦出现,其在后面的环节会被不断的放大。而HomeAI正是希望通过所做的一些工作来实现实体库的变化,使得即便是新片入库,其也能够非常快的反映在识别模块,反映在意图解析的模块,同时要求实体库的更新不会对算法本身的基础能力造成太大的破坏。 我们会定期更新近期文本语料来进行增量语言模型训练,这个模型也就代表着最新的日常说话的流行的趋势,这部分定期增量的语料也通过合成的方式加入到基础语言模型中,让我们的语言模型具备了一个定期学习的能力。与此同时,我们会收集一定规模的视频领域的语料,即常用的点播句式,这些语料会形成视频领域专属的语言模型,以上三个语言模型最终合成一个语言模型,其包含了大规模的通用语料以及视频领域的语料。 除此之外,我们还会把视频领域的语料句式和实体抽取出来,以此反映实体库的变化,实体库的片名、演员名、导演名等类型的实体可以以相同的权重去替换合成语言模型当中同类的词,即只有当语言模型认为下一个词是演员的时候才会尝试匹配“演员”实体库中所包含的实体路径,这样就使得整个语言模型能够非常快的受到实体库变化的影响,同时其也不会因为部分文本片段而强行错误覆盖那些不需要去替换的别的词。以上是我们在ASR这部分做的工作。 在意图方面,我们通过融入声学向量和实体类型这两个表达来实现快速响应实体变化。通常情况下,我们对文本进行分词之后会得到一系列的词,这些词会通过预训练模型得到词表征,进而经过提取或是判断领域等过程来完成意图识别。在我们的模型中,除了本身预训练的词向量模型之外,会额外并入两段向量,第一段用以表达词的发音,这样可以使得我们整个后续的模型对ASR的错误有一定容忍能力,即便一个字错了,词表征仍有一定的匹配能力。 第二段加的向量是实体类型的向量,例如识别出一个不在词库中的词,词向量并不精确,但是因为实体库的存在,我们容易知道这是个演员,或片名,或地名等实体类型,第二段向量能够使得网络模型在后续处理过程当中对实体类型有一个正确的处理结果。对于整个模型而言,我们通过这样的方式来使其获得对未知词汇的处理能力。 经过刚才两个部分的工作之后,原本语音点播的流程可以通过实体库延伸到去影响整个识别、理解、搜索这三个环节了,即所有的环节,都可以第一时间感知新剧、新明星,甚至剧名句式奇怪一点也没有关系,我们可以正确的去响应用户的请求。 下面,我们来看在上下文和用户环境这一部分所做的一些工作。上下文这一概念对应的是多轮对话,在视频搜索领域抽象出来的多轮对话有点像状态机的概念:用户总是通过第一句话产生一个新的会话,这个新的会话会产生一个搜索结果,这个搜索结果会有三种可能,第一种是搜索结果当中已经出现用户真正需要的东西了,这就是在出现预期结果的时候用户可以直接进行选择。第二种情况是用户发现错了,如搜索杨紫,结果出现另外一个同名同姓的人,用户可以通过紫色的紫等附加条件进一步搜索。这种情况下,系统通常通过用户的句式判断出来,用户下一步的输入是一个负向的请求,这时候系统就会走方向错误这条路径来对上一次的搜索进行一个结果的纠正。 还有剩下两种情况,一个是方向是对的,比如我想看电影,搜索结果都是电影,这时用户需要增加一个维度,比如通过对演员、地区等进行描述去增加维度。第二种可能是用户发现这个结果虽然跟我上一句描述一致,但是不是他想要的,他想重新开启一次新的对话,这就引入语音搜索领域的又一问题——任意搜索都会有结果。但用户在此过程中往往会使用几乎同样的句式,只是做了一个实体替换,如“我想看中国新说唱”,“有没有电影”,收到该指令必定会生成既包含中国新说唱,也包含电影的搜索结果,但这个结果可能质量很差,是一个用户原创内容。在这种情况下,系统是否需要上下文关联起来去给用户这一很差的结果,或是重新接受指令执行单一的搜索电影——这是我们需要解决的一个问题。 为解决这一问题,我们采用如下处理方式。首先进行一个前向的判断,即利用句式来判断用户说的这句话有没有倾向,如果话中有指代,或是新的话明显缺信息,则存在倾向可能。第二点比较关键,我们需要进行后向的判断,在上下文关联判断完毕后,上下文关联的搜索结果被呈现,同时第二句的原始意图会被进行单次的搜索并得到一个单独的搜索结果,我们会对这两个搜索结果进行一个合理性的评估,通过判断最终结果是否更优来决定选用上下文整合的结果还是单次搜索的结果,最后我们会根据这个结果进行倒推。 此时,我们需要思考一个问题——怎么判断结果到底是不是合理的?为什么中国新说唱跟电影放在一起就不合理?爱情公寓和电影放在一起就合理呢?在进行合理性评估讲述的这一部分,我们首先看一个先验概率,先验概率用来评价一部影片本身热度高不高,是不是最近才更新的,先验概率客观的决定了一部剧被用户选中的概率是高还是低,后验的概率代表了这部剧和用户的的关联度及相关度是不是够高,其中相关度的判断和常规的去判断关键词是否被覆盖有些不同,其主要从两个维度进行判断,在如图的搜索集合中,横坐标是关键词被覆盖的数量,其越少越好,新增加的条件应该在旧的结果当中起到选择的作用,而不是没有增加信息量,这就是所谓的关键词被覆盖的数量要越少越好。 比如说搜索动画片得到小猪佩奇第一季、第二季等,这时如果再说“小猪佩奇”,它就被结果当中的好几项都覆盖,新补的内容其实没有起到一个补充信息的作用,这便不是一个好的结果,第二个维度是覆盖的关键词数量,最终选出来的这一搜索项要尽可能多的覆盖前面的内容。第一象限的搜索结果代表能够在结果当中挑出覆盖到用户前面所说的所有关键词的结果,但这一象限的结果普遍存在一个问题:在覆盖很多关键词的同时,有很多的结果都覆盖了这些关键词,说明现在的结果处在缺少信息的状态,用户需要提供更多的信息来对最终结果进行选择。如果目前所显示的搜索结果没能覆盖仅有的关键词,说明搜出来的结果跟用户的请求并不匹配,只是有较弱的关联,这样的情况就是一个比较差的结果。 除了从实体和上下文的角度去理解用户的真实的语义,语义还和用户自己的属性相关,比如说他的偏好、观影记录等因素,包括用户当前所处的语境。下面我们就来具体看一下,语义如何跟这些信息相关。 首先,用户属性包含用户固有的特点,如从他的声音当中可以提取出来他的年龄、性别,从传统的视频搜索中提取用户的历史记录和观影偏好,但是在我们使用语音交互产品时,如包含音箱、电视等,它们有一个共同的特点,即它们是一家人一起用的,这在账号共用的情况下,通过设备或者账号的历史记录、观影偏好来分析这个用户的喜好会存在偏差。 于是,我们引出了这样一个技术,通过声纹聚类,无监督聚类的方式来辨别家庭成员,在每台设备上配置一个声纹库。当一个用户进行输入的时候,系统对声音进行语音处理的同时对他的声纹进行提取,如果这个声纹是之前已经出现过的,我们就会把他的档案归到之前已经存在的这个用户的档案里边,如果发现这是一个新用户的话,我们会为他建立一个新的档案,因此在不同家庭成员不断使用这个设备之后,系统可以分辨出来不同家庭成员的需求与喜好,学习到奶奶平时喜欢看宫斗剧,小朋友喜欢看动画片,比如光头强或者小猪佩奇等等。基于声纹的用户档案建立之后,语音交互设备在家庭的场景当中也可以比较精确的对用户的历史记录、观影偏好进行追踪,从而能够做到更好的个性化推荐。 通过对不同的声纹进行分析,语音交互设备会返回不同的搜索结果。除了用户本身的固有属性因人而异,用户使用设备的客观用户环境也在改变,这会对用户的语义产生一些影响,其中用户的环境包括设备的能力,比如说设备本身固有的形态,比如它是音箱还是电视,电视是否支持直播,支持电视台的某些节目,再比如设备中UI的状态,即呈现给用户的界面,在界面中待选列表会影响用户语义,UI状态跟上下文有一个不同的地方就在于上下文处理上文的前提条件是上一句作为语音输入,而UI状态时用户可能使用别的操作方式进入界面这时只有通过去收集用户当前所处的环境,才能做到类似刚才上下文的效果,收集环境包括用户上一次的搜索词、搜出来的待选结果以及界面中可以点的按纽等。 在这一方面的实现上,我们依赖于UI方注入。同时也在不断尝试是否能自动解析UI当中的标签,当完成解析后,用户再念到这些标签时,业务方只需要对应定义标签的UI元素,告诉用户哪些可以点的,或定义哪些是语音可以点的。这样一来,我们就可以相对独立的通过自己的方式去检索。 同样,我们在观看视频的过程当中也会存在用户环境,比如当前播放视频内容,播放进度,那这两个在语音交互中有何作用?后面我会介绍爱奇艺在视频内容理解和语音交互的结合领域所做的工作。 在视频入库之后,我们会对视频进行一个基础的算法分析,进行基础标签的抽取,比如人物、动物、场景、行为,包括台词、BGM等。有了这些基础标签的抽取之后,我们会在上层进行一个整合,得到的高层的语义提供给上层的应用。在这些应用场景当中,如图需要关注两个部分,第一块是在离线分析后,我们可以得到这些内容标签,并使其进入到我们的语言模型当中,只有语言模型已知这些标签,用户说了对应的话时,我们才能够识别成对应正确的文本。 第二块是用户在播放过程当中,提出一个请求,我们会把用户所处的环境提取出来,其中包括用户当前正观看的视频,看到了什么进度点。基于以上信息的收集,后台处理过程将更具个性化,比如用户现在请求使用“这是谁”,或者“智能跳转”时,后台可以获取用户当前所看的点位,再根据之前离线分析得到的索引结果,结合他的询问就可以查到他需要跳转到什么页面或者需要返回给他何种结果,最后结合用户意图去生成传递给端上的指令来呈现展示明星的结果或跳转到某个点,或跳到某一级的某个点等,实现用户播控的指令。 就视频语义提取而言,以前大部分情况都是人为标注的,现在通常使用算法自动分析,把这些基础信息索引离线分析完之后,再存储到数据库里。但人为和算法在不同场景下体现出各自的优势,一些比较基础的标签可以从画面当中直接提取出来,算法的覆盖度虽然会更高,但是人可以实现一些比较高层的理解。 (*本文为AI科技大本营转载文章,转载请联系作者) 所有CSDN 用户都可参与投票和抽奖活动 加入福利群,每周还有精选学习资料、技术图书等福利发送 原文章作者:AI科技大本营,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-9
    最后回复 票麒褊 2020-1-9 18:01
    1385 0
  • 车规级全栈语音AI芯片成功流片,芯智科技能否解决语音交互“芯”病?
    作者丨何奇 编辑丨郝秋慧 车规级AI芯片领域再添战队入场。 2020年1月7日,安徽芯智科技有限公司(简称“芯智科技”)在合肥正式对外宣布,已经成功流片业界首款车规级全栈语音AI芯片。据悉,该款芯片采用开源的RISC-V结构,没有知识产权的限制,能够满足自主可控的要求,将于今年第一季度上车验证,并计划在年底量产。 芯智科技CEO李重表示,未来,芯片还将面向其他算法厂商开放,提供芯片上的整体车载交互代码开源,以及支持多云与内容服务的自由接入。 据悉,该款芯片会优先供给亿咖通和吉利汽车。不过李重坦言,芯智科技不仅只靠股东方的支持,在吉利汽车上得到验证后,会应用到其他汽车品牌。 当前,百年传统汽车产业正面临巨大变革,新旧动能转化,智能网联汽车正驶入寻常人生活之中。智能语音交互作为智能座舱中重要技术支撑,消费者不断追求快速、安全、精准的语音交互,行业也不断在打造真正具备自主学习能力的智能语音AI助理。 随着国内语音AI芯片的市场潜力不断被释放,竞争者也不断潜入。 2018年9月19 日,国内人工智能企业云知声与吉利集团旗下亿咖通科技(ECARX)宣布共同出资成立合资公司—芯智科技,落地合肥高新区,开展面向汽车前装市场的车规级 AI 芯片研发。 2019年1月2日,云知声召开了“2019云知声多模态AI芯片战略发布会”,正式公布其多模态AI技术,及研发中的多款定位不同场景的AI芯片,包括实用性更广的超轻量级物联网语音芯片雨燕Lite、及面向智慧城市、出行的芯片海豚和雪豹。在芯片设计上,云知声已经在行业内取得了一定成果,这些能力也在赋能给芯智科技。 云知声为芯智科技提供AI能力和算法,亿咖通则是从车载的定义,端到端的车载产品上提供渠道帮助。“双方股东提供了非常大的帮助,才让芯智科技少走弯路,能够快速发展。”芯智科技产品副总裁孙晓欣坦言到。 据了解,目前车联网行业,语音交互更多的是依托云端的算力处理和反馈,而“云到端”、“云到云到端”之间的数据传输会在无形中产生部分信息延迟。与此同时,在诸多网络环境较差的情况下,智能语音AI助理的对话反馈、操作速度也会受到严重影响,造成一些听不懂,或者答非所问的语音交互用户体验。 为了更好的应用于汽车领域,该款芯片垂直打通了汽车数据,增强了针对汽车场景的本地逻辑推理等边缘计算能力。在隐私数据方面,芯片引入了本地加密存储单元,可以更好的保护隐私数据。同时,为了适应汽车出行场景的变化,芯片可以支持多种人工智能算法学习和推导,处理包括感知、理解、分析、决策和行动等系列任务。 云知声创始人兼CEO黄伟认为,车规级AI芯片作为人工智能在车内落地的最佳形式,被行业认为代表了芯片行业中的最高标准,与消费级和工业级芯片相比,车规级AI芯片在安全性、可靠性和稳定性上都拥有更为严苛的要求。 当前,全球汽车业正加速迈向数字化、智能化。就汽车本身而言,人们关注的焦点已不再是发动机、油耗等纯粹参数,而愈发看重车的“智力”水平。智能语音交互作为车载互联系统的核心,即便是细分赛道,随着创新企业入场,注定将迎来激烈的争夺。 原文章作者:亿欧,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-9
    最后回复 靳好洁 2020-1-9 17:36
    2699 0
  • 智能助手推动语音革命
    语音通信技术面临又一次革命。 150多年前,电话的发明掀起了一场通信革命。如今,随着各种新型智能设备利用人工智能(AI)从语音中提取含义,人们能够通过更加直观的新途径与身边的设备进行交互,一场新的语音通信革命正在到来。本文探讨了技术发展的现状,并预测了哪些技术将最终使无处不在的语音助手成为我们日常生活的一部分。 “沃森先生,请过来……” 1876年亚历山大·格拉汉姆·贝尔说出的这句举世闻名的话,标志着声音首次成功地通过电话传输。从那以后,人们的工作、生活和娱乐方式发生了翻天覆地的变化,而这项改变世界的创新始终是这些变化的核心。现在,人们与世界交互的方式也取得了新的突破,语音通信仍是其中不可分割的组成部分。 在电话诞生后的第一个世纪里,有线电话网络遍及全球,将人们连接在一起。而过去50年间发生的电子革命,促进了便携式无线语音和视频通话的发展。最近10年,通信技术已经从人与人之间的免提通话,发展到人与机器对话。尽管只是初具雏形,但这种新型人机交互正在推动新一轮创新。 目前,计算机、智能手机和智能音箱等都采用内置语音助手,使用基于云的深度学习系统来支持用户提问和设定操作。人们日常使用的其他设备很快也将实现这样的功能。根据市场研究机构Statistica的数据,预计到2021年,将有多达18亿人在随身携带的设备上,以及在家中甚或商业环境中其他类型的平台上,使用语音助手(图1)。 然而,由于当今技术的局限,语音助手系统在迈向成功的道路上还面临挑战。人工智能、专用处理器和更灵敏的麦克风等技术的进步,将提升语音助手的性能,促进市场普及。 图1:未来几年中,虚拟数字助理(VDA)的使用将急剧增加。据Tractica统计,到2021年,使用数字助理的人数将增 富于人性的人机对话 人类对话极其丰富,同时又具有交互性,这是语音助手系统面临的一大挑战。有时候,人们的话音还未落地,朋友就能心领神会。从技术上讲,人们相互交谈时的响应时间仅为数十毫秒。在与朋友聊天时,偶尔略加思索再缓缓回答是很自然的事,但如果正常对话中的停顿每次长达数秒,或者经常需要复述问题或命令,日常交流将变得多么令人难堪。 语音助手“对话”反应迟钝与其底层技术的诸多方面有关。语音识别和响应所采用的算法要占用大量处理能力,因此,如今的智能手机和智能音箱系统是将录音发送至云端计算资源。为了尽可能缩短传输时延,系统通常传输低质量音频文件,这会导致较高的错误率。而互联网本身是一种变速媒介,所以传输速度是变化不定的。这两个因素合起来,必然会影响依靠云来完成语音识别重任的语音助手的质量。 尽管有这些缺点,这项技术依旧令消费者振奋不已。智能音箱系统是继智能手机之后第一款提供语音助手的全新产品,其销量增速之迅猛,是智能手机问世以来未曾见过的。voicebot.ai发布的数据表明,2018年智能音箱在美国的销量增幅高达40%,算上新卖出的6640万台,智能音箱数量已达到1.33亿台,占美国成年人口数量的26%多一点(图2)。 此外,语音助手一定会不断提升性能,更好地模拟人类对话。除了缩短对话时延,算法也在不断优化,人与设备的交互会更人性化。这样的改善在很大程度上是源于让处理功能更靠近用户。 图2:Voicebot的统计显示,2018年全美智能音箱数量的年增长率接近40%,总计达到6,640万台。 将人机对话移到边缘设备 随着实现云端处理语音助手的技术日新月异,这些设备将变得更加个性化。当前的语音助手是向云发送信息并接收从云传回的信息。实现这一功能的人工智能技术未来将应用于边缘设备,从而改善系统的私密性、功耗和响应速度。简而言之,边缘计算可以将人工智能从云端转移到人们的家中、工作场所或身边的其他设备中,使语音助手更加高效。英飞凌不久前展示的世界上功耗最低的关键词识别边缘解决方案,使我们朝着这个目标迈进了一步。 医疗和个人健康监测,将是更智能的语音助手大有可为的领域。譬如,高灵敏度麦克风可以监测睡眠时的呼吸声,预测睡眠呼吸暂停等睡眠障碍的发生。将这类个人健康信息传输到云端进行处理,可能令许多人感到不安。边缘处理则在本地捕获音频、进行计算并存储分析数据,完成对健康信息的监测和分析。这样一来,用户就能管理数据共享的方式和时间,能够确保更高私密性的语音助手,使人们对监测心脏和呼吸健康、睡眠状态以及整体健康状况感到更加安心。 当前人工智能发展迅速,其动力来自深度学习研究和构建专业深度学习系统的新型硬件。该领域的先驱、英飞凌合作伙伴Syntiant正研制可以为边缘设备带来深度学习能力的新型芯片。短短几年内,语音助手技术支持的人机交互将成为数十亿人日常生活中司空见惯的事。针对智能语音助手而开发的技术所具备的用电特性,使得采用小型电池供电的智能音频识别也能在许多其他应用中大展拳脚。想想你听到的声音如何影响你与世界的互动,就能预见到这项技术还在哪些领域发挥价值。除了日常生活中的应用,语音助手技术也将成为物联网(IoT)和工业4.0智能机器传感器系统的组成部分。 自动驾驶车辆还将利用音频输入和其他传感器来检测并响应周围环境。诸如自行车、火车、其他交通工具和大喊大叫的孩子等发出的声音,都是人工智能网络的音频输入,使汽车能够“看到”拐角处的目标。在工厂中,智能控制网络可以根据机器运行发出的声音进行诊断,排查故障,防患于未然。智慧城市系统会“听到”诸如玻璃破碎或交通事故等异常事件,并向有关部门发出警报。未来的机器人将把音频系统纳入传感器网络,以支持智能操作及交互。实际上,潜在应用数不胜数。 MEMS麦克风超越人类听觉 人类的听觉和认知处理是极其丰富的感觉系统的一部分。然而,有朝一日,基于人工智能的语音助手将在某些方面超越人类的能力。语音助手目前利用微型麦克风阵列和智能芯片来准确检测并理解传入的声音。其中一项关键技术是远场识别,这项技术通过高灵敏度MEMS麦克风和语音处理器芯片,使用高级音频处理算法来听到可能是房间另一头传出的窃窃私语。其他算法则有助于麦克风阵列从一个房间内的多个声源(包括其他人、电视和收音机)中,辨别出发布命令的具体声音。英飞凌研发出一个演示系统,将麦克风和语音处理器与微型雷达芯片合为一体,进一步改善存在检测和焦点(图3)。 图3:英飞凌的雷达和MEMS麦克风与XMOS音频处理器的传感器融合,为语音助手平台提供了一种新的构建模块。( Emile Berliner发明的麦克风让电话变得实用,如果他今天还活着,一定会对袖珍如斯的麦克风感到惊奇,但他依旧看得出来声音捕捉和回放的工作原理。当前市场上MEMS麦克风的工作原理与Berliner研发的第一款实用麦克风完全相同:由一片薄膜检测到声波产生的空气压力并将其转换为电信号。从低声耳语的0dB SPL(声压级),到摇滚音乐会现场的120dB SPL,MEMS麦克风能够检测到的可闻声范围很大。dB刻度是对数形式,这意味着120dB SPL的能量比0dB SPL声音高12个数量级(1万亿倍)。 在许多应用中,最尖端的MEMS麦克风的灵敏度超过了人耳通常能听到的声音范围。相比同样尺寸的类似麦克风,英飞凌提供的最新一代器件具备更加优异的性能,可使信噪比(SNR)改善达10dB(图4)。它可以在新一代系统中为音频处理提供高质量音频信号,从而提升总体灵敏度并降低误差率。 图4:英飞凌的双背板MEMS技术在两块背板之间嵌入一层振膜,从而产生真正的差分信号。SNR提高了6dB,达到70d 智能的发展无止境 如今使用的音频处理技术通常采用诸如回声消除和有源滤波等概念来抑制有害噪音,并隔离目标音频信号以进行语音识别。事实上,这种类型的音频识别是将噪音信息视为背景音。新一代神经网络人工智能处理器则将采取不同的方法,学习区分噪音与有用信号之间的差异。目前英飞凌正与合作伙伴共同开发能够实现这一任务的麦克风和硬件组合。合作的另一个目的是提供一些必要的开发工具,用来为工业、商业和消费类产品设计人工智能音频检测和语音识别系统。 不久的将来,利用语音助手技术,人们能够与所使用的机器进行有意义的对话,哪怕并未连接到云,人机对话亦不受影响。用于监测人们健康和安全的传感器系统也将采用这种智能音频技术。这是一场持续的语音通信革命,人们将以新的方式与机器交互,同时机器也能够检测所处的环境并作出响应。 原文章作者:EET电子工程专辑,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-9
    最后回复 捉又 2020-1-9 17:08
    1636 0
  • AI语音交互领域常用的4个术语
    语音交互是基于语音输入的新一代交互模式,比较典型的应用场景是各类语音助手。 本文整理了语音交互领域常用的4个术语,希望可以帮助大家更好地理解这门学科。 1. 语音合成标记语言(SSML) 语音合成标记语言的英文全称是Speech Synthesis Markup Language,这是一种基于XML的标记语言,可让开发人员指定如何使用文本转语音服务将输入文本转换为合成语音。 与纯文本相比,SSML可让开发人员微调音节、发音、语速、音量以及文本转语音输出的其他属性。 SSML可自动处理正常的停顿(例如,在句号后面暂停片刻),或者在以问号结尾的句子中使用正确的音调。 2. 语音识别技术(ASR) 若要实现机器与人类的对话,就要经过三个步骤:听懂、理解与回答。语音标注技术的目标就是将人类语音中的词汇内容转换为计算机可读的输入。 语音识别技术可分为以下四个流程: 目前,手机里的语音助手是语音识别技术最典型的应用之一。 3. 音素(phone) 音素是根据语音的自然属性划分出来的最小语音单位,通俗点来说其实就是人在说话时,能发出最最最最短小、简洁的不能再分割的发音。不同的音素就是不同的短发音,可以组成不同的长发音,再组成词句形成语言。 4. 语音合成(TTS) 语音合成是通过机械的、电子的方法产生人造语音的技术。通俗点来说,语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。 语音合成技术目前主要应用在读书软件、导航软件、对话问答系统等领域。 原文章作者:曼孚科技,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2020-1-9
    最后回复 仑舜牵 2020-1-9 16:46
    1867 0

快速发帖

还可输入 80 个字符
您需要登录后才可以发帖 登录 | 立即注册

本版积分规则

在本IOT圈子中寻找帖子
IOT圈子地址
[复制]
Weiot(威腾网)是一家以原创内容、高端活动与全产业渠道为核心的垂直类物联网产业媒体。我们关注新兴创新的物联网领域,提供有价值的报道和服务,连接物联网创业者和各种渠道资源,助力物联网产业化升级。
15201069869
关注我们
  • 访问移动手机版
  • 官方微信公众号

© 2014-2020 Weiot.NET 威腾网 北京微物联信息技术有限公司 ( 京ICP备20000381号 )|网站地图