请选择 进入手机版 | 继续访问电脑版
专注物联网产业服务
微信二维码
威腾网服务号
游客您好
第三方账号登陆
  • 点击联系客服

    在线时间:8:00-16:00

    客服电话

    17600611919

    电子邮件

    online@weiot.net
  • 威腾网服务号

    随时掌握企业动态

  • 扫描二维码

    关注威腾小程序

智能语音交互
智能语音交互
智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。典型的应用场景—语音助手。自从iPhone 4S推出SIRI后,智能语音交互应用得到飞速发展。中文典型的智能语音交互应用如:虫洞语音助手、讯飞语点已得到越来越多的用户认可。
  • 科大讯飞董事长刘庆峰:语音将成为最重要的人机交互方式
    新京报贝壳财经讯(记者 许诺)12月18日,中国智能语音产业发展高峰论坛暨中国语音产业联盟2021年会在北京顺利举行。论坛上,科大讯飞董事长刘庆峰在主旨报告中指出,人类正在进入“人机物”万物智能互联时代,语音将成为最重要的人机交互方式。他透露,语音交互赋能的智能设备正快速增长,语音助手交互量同比增长84%,成为智能硬件核心应用。 刘庆峰(主办方供图) 另一方面,疫情下,开放平台生态加速发展。当前科大讯飞人工智能开放平台已开放447项能力,开发者数量从去年12月的169万增加到284万,过去一年,平均每月新增9.6万实名认证的开发者;平台应用数量从去年97万增加到133万,新增应用中工业和企业数字化转型应用占比达60%。 “产业发展要服务国家发展战略。”刘庆峰表示,人工智能在国产化适配保护产业链安全、智慧化防疫、应对老龄化、推普促进教育就业、科技公益帮助特殊群体等方面,不断地推动社会事业的进步。 同时,刘庆峰也坦承,当下智能语音技术发展面临多语种语言互通、复杂场景人机交互、多模态虚拟世界三大挑战。他指出,在挑战面前,科大讯飞将继续进行源头技术的持续创新,在多语种研发、机器翻译能力、方言保护等领域已经取得进展。科大讯飞也通过复杂场景语音识别、端到端语音翻译技术的突破,来推动复杂场景人机交互的发展。面向数字化生存的未来,科大讯飞发布了虚拟人交互平台1.0,进一步推动多模态虚拟交互进展。 新京报贝壳财经记者 许诺 编辑 宋钰婷 校对 付春愔 原文章作者:新京报,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2022-1-9
    最后回复 啕苞 2022-1-9 22:12
    1611 0
  • 百度行业首发《2019·AI人机交互趋势研究报告》
    http://5b0988e595225.cdn.sohucs.com/images/20190304/1cc6d611f51346c1ae326dd5719c3a66.jpeg AI 是这个时代最具变革的力量之一,它改变了我们与机器互动的方式,影响了我们的生活,重新定义了我们与机器的关系。 百度人工智能交互设计院基于过去一年多对 AI 领域前沿技术、产品和设计的深入研究和洞察,探讨了AI 时代人机交互在未来3年内的发展趋势。 http://5b0988e595225.cdn.sohucs.com/images/20190304/e71ed4bac31f43f1890e01854953734f.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/91fb2329f97c4f398880190f2c5a49d7.jpeg 目前,语音交互技术已经加速在智能家居、手机、车载、智能穿戴、机器人等行业的渗透和落地。《报告》指出,未来随着语音技术的不断完善,语音交互的自然度将进一步提升,并愈加趋向于人类自然对话的体验。 具体表现为:语音交互将从机械的单轮对话进阶到更流畅的多轮对话;合成语音更自然、真实,接近真人水平;语音交互具备听觉选择能力,提升多人对话体验;语音交互将支持多种方言,并针对细分群体进行差异化设计。 http://5b0988e595225.cdn.sohucs.com/images/20190304/31c6104fa8d04700bba05a3e54b7bbb3.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/dafc4b2c992e4263b595110a2600d3c9.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/ae9b61324e9b4382a3d9a9fb33a7b0f4.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/2a5e2535f8f64dbfa5972b9ba8b781e0.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/bf4c0254d504459da1da328da1645097.jpeg 除语音交互外,计算机视觉技术的发展已使得智能体实现了通过识别人脸、指纹、面部表情、肢体动作等人体信息,而更加快捷多元地与人类进行交互。 《报告》认为,未来,人与智能体的交互将融合语音、人脸、手势、生理信号等多种方式,为人类打开更多的交互空间和应用场景。 具体表现为:人脸检测及识别聚集更细维度的面部特征,拓展更多的交互空间和场景;空中手势交互将成为新热点;触控、语音、手势、人脸最有可能成为多通道融合的主流通道;生理信号、触觉、嗅觉等也将成为辅助通道融入多通道交互中。 http://5b0988e595225.cdn.sohucs.com/images/20190304/bd407fdc2dbc477e89c753f2ce3a2d45.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/bd4bd7a21cbc4965b1248221f445f05b.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/29ac4ed1621c4417983dd215957eba43.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/172ca7026293492ba1975863f235f3f2.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/3cb8f5c1b2fa43008616ce5f1e49b44a.png 目前,智能体人设的设计和表达主要聚焦在语音(如音色、语调等)和语言层面(如表达方式),并且通常局限在部分场景、部分话术上,缺少一致性和全局感。 《报告》提出,未来,智能体人设将从语音、产品外观、虚拟形象等多维度进行设计,甚至聘用编剧设计具有统一形象特点的话术,利用混合现实(MR)、全息投影等技术将人设具象化,让用户在不同场景下均感受到智能体一致、明显的人设特征。 http://5b0988e595225.cdn.sohucs.com/images/20190304/b9e1bdcb6af4438aa19810bf5217db68.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/5dbb53e041bd4b6eb1ec4832684c4d6f.jpeg 技术的发展虽然革新了我们的生活方式,但是长久以来,人机交互一直延续着人类“输入”,机器“反馈”的循环模式,人类始终是主动的,机器始终是被动的。 《报告》认为,人工智能赋予了机器情境感知和自主认知能力,使我们有机会构建机器主动服务于人的交互模型。智能体出现主动交互行为的具体表现为:主动交互越来越“贴心”;主动交互在“家”和“车”的场景下率先商用落地;主动交互将提升公共场景下人机协同的效率。 http://5b0988e595225.cdn.sohucs.com/images/20190304/335572f654c2490ab95d83cef1cda62e.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/871784d9785d45e18c3ca0023f4f9ff4.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/25c244a3ac1b49e5b3ff9801a714330d.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/0404162de662430da1f058b367ff8aa3.jpeg 过去20年,在人机交互中,机器基于表情、文本等方式的的情感识别能力已有很大的提升。目前市面上出现的如情感陪护机器人、智能音箱、智能汽车等已经初步具备一些情感识别能力,可以根据不同的场景、对象,进行适当的情感交互。 《报告》指出,未来,情感计算技术的提升及硬件升级将赋予智能体在“视”“听”等方面更强的情感识别能力;同时智能体对于人类思维理解、情景理解能力也将更加完善,情感交互能力将更智能、更体贴。 http://5b0988e595225.cdn.sohucs.com/images/20190304/ff3c57932cf84b5485ac77be853a3a1c.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/45284727c7bc4f83bc8edb520f9482fd.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/f97c7293fc1342d7be6ca950c35f68b8.jpeg 人机交互的发展为儿童、老人、残障人士等群体更便捷地利用机器获得服务,提供了充分可能。 《报告》提出,未来,AI 对人类的关怀将得到快速发展和应用,覆盖更加细分的人群和更深入的场景。为儿童,AI 将从易于交互到提供心智陪伴的服务;为老人,AI 将缩小他们与科技的鸿沟,助推他们开启品质生活;为感官残障人士,AI 将帮助他们重获对世界的立体感知;为特殊疾病人群,AI 将提供预测、诊断和康复服务。 http://5b0988e595225.cdn.sohucs.com/images/20190304/1f8f7390f9a3421397bab4a3f4a8d031.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/c2902b612a994f8fa56d2a38dc8928d0.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/215bb64e473645c1ac70fdeb8af58083.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/83cd087abb674014b59cb3149e6fcd9a.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/80c7c0e3a1dd4968ba6495e810bd4f8d.png “产业化”和“应用化”成为未来几年人工智能的两大发展方向。 《报告》指出,随着 AI 技术的进一步成熟和落地,及其与大数据、IoT 的结合,AI 将从单品智能、独立场景到互联智能,场景融合进阶。智能设备将互联互通,场景将进一步融合,实现多场景衔接;VR/AR 将促进线上和线下、虚拟和现实的联结,未来,VR 会加速拓展到更多的产业和实体,AR 中的现实与虚拟将从简单叠加到有机融合,实现用户可以源自自然意识进行人机互动。 http://5b0988e595225.cdn.sohucs.com/images/20190304/dad8e05c34704b1c81667d755918b675.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/d442fef17b984075b027a95aed9c1dd5.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/95121ac0e09a45a78abf102d6d3ddafb.jpeg 目前,人机协同已在工业领域初步实现,而随着智能体从工业生产领域向商业服务、社会服务和家居服务领域拓展,人机将走向深度协同。《报告》认为,人机深度协同可以最大化发挥双方优势,实现合作共赢。 而人们对 AI 的信任,是智能体全面进入人类工作和生活,实现真正人机协同的前提。即,信任构建成为了实现人机深度协同的首要突破点。与此同时,AI 伦理道德将更加细化,成为所有从业者需遵守的行业准绳。AI 行业的发展在带给大众便利生活之时,避免算法歧视、保护人类隐私、尊重人类价值等也变成了从业者们亟需重视的问题。 http://5b0988e595225.cdn.sohucs.com/images/20190304/77cef09bbb684ae09872e0ccf960a159.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/5e3845e5cf8a49af9621fe0520be6563.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/51b2c035e5c54843b766582203a7331a.jpeg http://5b0988e595225.cdn.sohucs.com/images/20190304/f3e1a8a882d84ee9b42b163fa681133b.jpeg 最后,《报告》指出,AI 时代的人因工程是一个真正的系统工程。而每个人机交互行业的从业者都需要拥有 AI 思维。最重要的是,中国的人机交互设计和研究者们将首次和发达国家站在同一起跑线上,我们有机会去定义这些体验标准,而不再是追随或遵守。 AI 时代大门缓缓开启,属于中国和中国企业引领世界前沿的新时机已到来。 本文转载自百度 AI 交互设计院公众号 原文章作者:百度AI,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-30
    最后回复 裘谦 2021-12-30 06:08
    1512 0
  • 又有新突破!鸿雁这款语音面板,到底哪里厉害?
    土地流拍,地王难产;去化率低,资金链紧……这是中国楼市的2018年景象。而面对不曾松动的调控政策和已然到来的存量时代,让越来越多的地产企业开始思考数字化变革。 1月15日,万科、融创、绿城等中国数十家头部创新房企齐聚北京 “阿里云IoT数字地产峰会”,共同探讨“下一个十年的数字化转型”。 △鸿雁发布“智音A1分布式语音面板”。 在这场共话科技、融合与未来的地产创新峰会上,鸿雁电器联合阿里云IoT、阿里达摩院三方共同发布了“鸿雁智音A1分布式语音面板”。 这款集分布式语音控制、多意图识别和面板操控的全屋智能语音交互终端,将极大地提升全屋智能的交互体验,为地产行业的数字化转型赋能。 多种突破带来沉浸式交互感受 鸿雁智音A1采用高集成度智能语音芯片,针对目前智能音箱依赖公有云决策数据、单一指令交互、不能无死角沟通、家用电器联动能力弱、明线摆放影响美观、近场交互无法取代屏键触控等弊端,对全屋智能的交互方式进行了全面的升级。 其中,融入边缘计算、实现分布式和多意图识别,以及面板化的安装方式是最为关键与核心的改变。 △鸿雁总裁王米成介绍“智音A1分布式语音面板优势”。 举个例子,一个房子存在多个语音面板,但分布式语音控制可以快速判断出需要决策反馈的面板主体,以精确响应用户指令,实现无死角的沟通。 至于多意图语音识别,则是用户可以发出如:打开灯,开音响,关闭音乐…… 这一系列连续指令,面板均能一次实现控制。 目前市场上的智能音箱均以单品的形式呈现,一些空间较大的居所,哪怕一个房间内,都需要多个语音交互设备,用户常常为在哪里放置这些音箱产品感到发愁。鸿雁86式语音智能面板拥有可入墙、低成本和全屋覆盖三大特征,可以为用户带来沉浸式的交互感受。 鸿雁领衔智能面板品牌认知度排名 在这次“阿里云IoT数字地产峰会”上,智能家居生态企业与地产公司进一步认可了智能面板在全屋智能领域的交互价值。 根据会议上发布的《2019中国智能家居发展白皮书》,终端用户最倾向使用智能面板,占比达到48%,排在第二位的是语言控制,占比25%,手机APP控制则以23%的占比排在第三位;而74.13%的地产客户选择智能面板作为最合适的全屋智能交互终端。 报告同时指出,智能面板因其操控方便、分布广泛、墙面安装美观、老人孩子也可以安全便捷操控等特点,受到市场的青睐。智能面板是目前家庭智能化控制的最佳入口和交互终端已经成为行业共识。 △会议同期,鸿雁联合阿里云IoT、新浪家居及中国智能家居产业联盟CSHIA发布了《2019中国智能家居发展白皮书》。 白皮书同时显示,鸿雁是系统集成商群体中智能面板品牌认知度最高的企业——44.25%的认知度,高于第二到第五位品牌的认知度总和。 据鸿雁总裁王米成介绍,实施“智能面板”战略至今,鸿雁已经研发了100余款智能面板产品。与此同时,鸿雁通过构建智能面板专利池,来形成自己在智能面板领域的竞争优势。 据悉,目前鸿雁在智能家居、智能面板领域的专利数量已经达到400余件,其中发明专利占53%以上。 鸿雁智能面板阵容 而在布局全屋智能产品端的同时,鸿雁还在阿里飞燕平台的基础上加快完善鸿雁智能家居系统应用平台,以此来实现更多品类的智能设备在平台的互联集成,并从家居辐射到办公领域,创造更好的人居价值。 不断突破边界 拥抱万物互联 面对万物感知的物联网时代,过去三年,鸿雁主动跳出制造业品牌的定位,拥抱智能商业时代,探索更多的可能性。 2018年年初,凭借在智能家居领域的突出贡献和综合竞争力,鸿雁荣获 “2017中国智能家居领军品牌”,该评选由中国室内装饰协会等12家行业协会联合新浪家居共同发起。 同年12月,明源云携手中城联采举办“第三届供应商行业十强”评选,经过1900余家开发商的实名推荐评选,鸿雁电器获评“智能家居行业竞争力十强供应商”。 抓住窗口机遇三年磨一剑的鸿雁,已经成为智家居领域的头部企业。未来,智能家居将成为鸿雁的核心竞争力之一。 会议现场 就在2019年元旦期间,鸿雁总裁王米成接受《财经》杂志“首席智能官”系列报道的专访,分享“鸿雁如何从顶层设计上构建企业的智能化转型路径”。 王米成说,物联网时代,如果我们的思维还停留在互联网时代甚至传统制造时代,势必会越走越吃力。新的时期,企业要敢于突破自己的边界,万物互联为鸿雁提供了新的窗口期,我们必须拥抱云端、拥抱物联网,为客户创造新的价值,同时实现鸿雁自身从制造业向物联网平台企业的转型。 原文章作者:大照明,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-30
    3146 0
  • 有一说一 | 20万买B级车绕不过去的门槛 全新雅阁\凯美瑞 ...
    出品 | 搜狐汽车·搜狐新车 作者 | 黄轩 编辑 | 马良 雅阁(参数|图片)和 凯美瑞(参数|图片)究竟谁才是中国汽车市场20万元日系B级车的标杆呢?这个问题似乎一直困扰着大家,纷争不断。两款车在国内拥有相当高的知名度,二手车保值率也都差不多,似乎凯美瑞还更保值一些。10月9日,本田新款雅阁上市,售价16.98-25.98万元,中期改款的雅阁在智能化层面升级成为核心竞争力。那么今天我们来好好盘一盘,雅阁和凯美瑞这对风格不同的欢喜冤家到底谁更好? ◆ 外观对比 外观方面,雅阁和凯美瑞都走上了运动化路线,其实日产 天籁(参数|图片)也不例外。年轻化趋势势不可挡的今天,中期改款雅阁考虑到年轻消费者审美喜好,加入了幻夜运动套件。而不加套件的车型,在外观细节上也有着偏向运动风格的调整。全新雅阁溜背造型配合其本身就低重心、轻量化的底盘设计,进一步彰显其外观上的运动年轻化,这也是能够吸引到年轻消费者的魅力所在。 运动套件包括外后视镜黑色涂装、LED大灯内熏黑反光面、镀黑三横杠前格栅、进气格栅电镀黑饰条、亮黑雾灯造型、亮黑后扰流板、黑色鲨鱼鳍天线。前后灯组都进行小幅调整,加入柔光罩和光导LED,看上去更时尚。转向灯为流水点亮样式。配色方面也是这次中期改款的亮点,新车提供了7种外观颜色:极速绯红(新)、极夜流银(新)、格陵兰白、威尼斯蓝、星月白、极光蓝、奥夫特黑;3种内饰颜色:黑色、红色、白色。 凯美瑞则采用双造型设计,提供豪华版和运动版两种风格可选,并且新款还新增了钛辉银的车身颜色,以此满足消费者的更多个性化需求。而新款凯美瑞并没有明显的外观变化,主要还是集中在细节方面,比如豪华版前脸采用立体感更强的前格栅,前包围也增加了镀铬装饰,很符合其更加高级的定位。新款凯美瑞的车尾变化主要是尾灯增加红色饰条,车尾的镀铬件也进行了加长。 雅阁的车身尺寸为4893/1862/1449mm,轴距为2830mm。凯美瑞的尺寸为4885/1840/1455mm,轴距为2825mm。雅阁在车身长度、宽度、轴距方面略有优势,而凯美瑞在高度方面的表现要好一些。 ◆ 内饰对比 全新雅阁内饰方面也是以配置提升为主,配合全新的Honda CONNENT 3.0系统换上了10.25英寸的中控屏,同时减少了机械按键和旋钮,同时细节之处换上了自动防眩目内后视镜、琥珀色杯架、全新运动踏板等。而全新凯美瑞的内饰还是熟悉的轮廓,让人眼前一亮的是中控的10.1英寸悬浮式屏幕。屏幕从中控台内部跳出来放在中控台台面上,这下看屏幕不需要低头了,视线更合理。如果单从用料触感角度来看,丰田凯美瑞赢了。它保持着丰田车一贯注重质感的品牌精髓,软性真皮要比雅阁车型使用的粗颗粒软性皮革面料更细腻。 接下来说重点! 说起智能化,这是目前所有汽车品牌在车机功能开发的共同方向,只不过在我们传统认知中,日系汽车品牌一向保守的态度,很多日系车内中控屏的智能化像是强加上去的功能,屏幕看上去很大,但边框又粗又笨。屏幕界面复杂,功能又很单一,既不好用也不美观。中期改款的全新雅阁最重要的就是导入Honda CONNENT 3.0系统,功能层面的丰富程度比凯美瑞的车机强很多。打个比方,凯美瑞的车机能上网,达到的是3G时代,全新雅阁的车机直接迈入5G时代。 ◆ 功能方面,Honda Connect 3.0更贴近中国互联网用户习惯 首先是雅阁车机UI界面上一改以往单调的文字排列布局,换上了大图标和彩色界面,终于跟上潮流。接下来是功能上提升更大,提供AI智能助理、日常生活互联、手机远程控制、OTA在线升级等,还支持百度CarLife互联。 2021年3月22日,本田通过线上直播的方式发布了最新一代车载系统,即第三代Honda CONNECT。前两代Honda Connect系统已经具有智能网联化初级阶段,第三代系统则是朝着中国本土智能网联化大方向“跑步前进”,虽然和自主品牌相比仍有差距,但在合资品牌中已经为本土化适配做出很大程度的努力,可以说是最贴近中国消费者的一套智能系统。因为大多数合资品牌车机系统目前的智能化水平都还停留在重度依赖苹果carplay以及百度carlife的程度,语音识别能力弱更是合资、进口品牌车型的通病。 在这套系统研发的背后,有着科大讯飞、阿里巴巴人工智能实验室这些我们耳熟能详的车联相关产品供应商支持。官方表示,第三代Honda CONNECT具备“更多面互联”、“更贴心助理”、“更智能长大”三大特点,分别对应互联生态资源、语音控制系统和远程在线升级。Honda CONNECT 3.0系统对语音控制系统进行了重点升级。AI智能助理覆盖了车内常用功能,例如导航、娱乐、检索、空调、车窗等。依靠科大讯飞提供的解决方案,这套语音系统不仅应答更流畅,还拥有出色的自然语义理解能力,能够做到人与车的自然对话。此外,AI智能助理可使用多种方言与用户对话,并支持自定义唤醒词。 常用的功能如高德地图,喜马拉雅在线电台,QQ音乐等已经内置好了,可以直接通过语音选择在线音乐电台。 此外增加了天猫精灵功能,用户可以在车机端控制智能家居,例如驾车回家途中可提前打开空调或加湿器。此外,用户可使用天猫精灵随时了解车辆状态,实现远程启动、打开空调等操作,用车便利性明显提升。在天猫精灵的帮助下,用户可在车机中进行线上购物、点外卖,并完成相关的在线支付。雅阁也成为为数不多的合资品牌车型为中国消费者衔接本土化互联网生活。 本田还推出了Honda Connect App,车主可在手机端进行落锁、开锁、打开后备厢、开关空调等远程操作。远程空调操作不仅限于启动/关闭,更可以调整温度或启用除霜功能,细节考虑很到位。手机App还集成了数字钥匙功能,完成绑定后使用手机即可启动车辆。车主还可将手机数字钥匙授权给家人和朋友,轻松分享车辆控制权,免去了交接物理钥匙的麻烦。 ◆ 期待未来丰田凯美瑞车机智能化升级 丰田汽车的车机一直以来都算不上先进,甚至有点落后于时代。当人们已经开始上网冲浪的时候,它还停留在发短信联系的年代。功能简单算不上什么坏事,毕竟咱们开车的时候能听歌,能接打电话,看个地图导航就足够了,可是产品竞争不管这些因素,人无我有,人有我优,才能提升竞争力啊,这方面本田确实走在日系三剑客的前面。 是从什么时候开始,丰田开始为国内消费者导入智能网联功能的呢?从全新一代 卡罗拉(参数|图片)开始,车机中控屏从中控台悬浮出来,加入了4G数据网络,实现了最初简单的语音控制、实时智能导航及联网的音乐播放功能。随着中国本土化市场网络时代快速发展,车与生活的紧密衔接让丰田的车机开始显现出落后一面,最初级的联网智能化,不够用了啊。 作为第八代凯美瑞的中期改款,车机布局设计为悬浮式,和驾驶员视野平齐的高度,方便驾驶员观察和操作。对于这种“支棱起来”的屏幕设定没有什么吐槽的必要,因为海外北美地区的凯美瑞也是这样的屏幕布局设计,原汁原味完全没有中国魔改或者特供。国内中高配车型屏幕尺寸增加到10.1英寸,屏幕分辨率也得到提升。智能化层面和之前的丰田车相比,进步明显。引入丰田智行互联系统,实现了智能语音交互、引入了车载微信、高德地图导航也更好用,语音输入目的地更准确,内部加入了百度CarLife手机互联功能。车机系统还可以通过OTA升级,3年免费无限上网流量,跟对手相比有谈资了。 此外,全新凯美瑞基于丰田智行互联全系导入DCM(数据通信模块),提供包括远程空调控制、远程寻车、被盗追踪(含远程启动限制)、远程故障诊断、紧急救援等在内的多项车联网功能和服务。车载微信和语音智能交互能让驾驶者更加安全高效地进行一些信息处理,算是很贴合国内消费者需求的一项升级。 ◆ 其他配置对比 安全配置方面,两车均配备了主/副驾安全气囊、前排侧气囊、前/后排头部气囊。本田全新雅阁标配了Honda SENSING安全超感系统,配备LKAS车道保持辅助系统、CMBS碰撞缓解制动系统、RDM车道偏离抑制系统等系统外,首次导入了TJA交通拥堵辅助系统,与ACC主动巡航控制系统配合,可在低速拥堵路况下,实现自动跟随前车并保持在车道中间行驶。此外,Honda SENSING安全超感智能驾驶辅助系统还。全新凯美瑞主要搭载丰田全新一代Toyota Safety Sense智行安全系统,集成DRCC动态雷达巡航控制功能、PCS预碰撞安全系统、LTA车道循迹辅助功能,在功能性上能够有效保障出行安全。两款车型在主被动安全配置方面表现水平相当,全新雅阁TJA交通拥堵辅助功能的加入则略胜一筹。 舒适和高科技配置方面,两车均配备了倒车影像、定速巡航、全速域自适应巡航、发动机启停技术、上坡辅助、自动驻车、电动天窗、无钥匙启动系统、前排多层隔音玻璃、自动空调、温度分区控制、车内PM2.5过滤装置。雅阁多了可变转向比、主动闭合式进气格栅、主动降噪。凯美瑞多了远程启动、HUD抬头数字显示、全车车窗一键升降、雨量感应式雨刷、负离子发生器、车载空气净化器。总体来看,凯美瑞的配置要更为丰富。 ◆ 空间对比 两车座椅均标配了仿皮材质。全新雅阁的座椅新增红色皮革,座椅柔软度和乘坐舒适性不错。凯美瑞的座椅颜色以黑色为主,2.5S运动版会有红色内饰配色。细节之处点缀缝线有一定的精致感。除此之外,两车都配备了主驾驶座椅4向高低调节、主/副驾驶座电动调节。凯美瑞多了主驾驶座椅2向腰部支撑调节、副驾驶位后排可调节按钮。 雅阁后排空间能满足大多数使用场景,让乘客的乘坐感受变得更好。凯美瑞后排空间宽敞,有效提升了用户的乘坐体验。另外,两车都配备了中央扶手、后排杯架、后座出风口。座椅的舒适性其实是全新凯美瑞的一大卖点,无论是座椅角度的设计、填充还是坐垫的长度和雅阁相比,这些都是凯美瑞的优势,填充不是软趴趴无底线的柔,是有支撑的软。 雅阁的后备厢空间不错,而且后排座椅可以放倒,能形成更大的行李厢空间来满足日常需求。凯美瑞的后备厢常规容积为620L,支持放倒,灵活性和扩展性十分不错。 ◆ 动力对比 全新雅阁燃油版搭载1.5T发动机,匹配的CVT变速箱。发动机型号为L15BN,最大功率为194马力,峰值扭矩为260牛·米。这台发动机动力输出轻快,涡轮迟滞小,油门响应更加及时,配合相对更加灵敏的转向和悬架反馈,开起来更有乐趣,因此出色的驾控体验已然成为第十代雅阁的标签之一。雅阁锐·混动车型搭载i-MMD混动系统,匹配的2.0L阿特金森循环自然吸气发动机,发动机最大功率为146马力,日常驾驶更省油。 全新凯美瑞提供2.0L+CVT、2.5L+8AT及2.5L+ECVT混动双擎三种动力版本可供选择,其中2.5L发动机的最大功率为154kW,这台发动机兼顾动力及燃油经济性,与发动机匹配的是来自爱信的8AT手自一体变速箱。 对比总结 对比来看,雅阁与凯美瑞可谓各有优势。其中全新雅阁的设计风格更加精致运动,今年9月份雅阁月销量达到19907辆,从销量表现也不难看出,如今消费者对于年轻化的设计风格更认可。全新凯美瑞的销量月均维持在1.5万辆水平,8月份销量跌至6000辆水平,和雅阁相比差距悬殊。智能化升级是两款日系B级轿车中期改款作出最大变化,全新款凯美瑞升级之后在智能科技方面,虽然与海外保持着原汁原味设计,但还是加入了车载微信等中国人专属配置,都能看出新款凯美瑞在主动迎合国内消费者,这份诚意还是值得肯定的。而全新雅阁搭载的Honda Connect 3.0研发之初就和中国互联网厂商合作,更贴合中国消费者使用习惯,特别是天猫精灵的加入让车与生活的互联不再是一纸空谈。全新雅阁更年轻了,更智能了。比凯美瑞拥有更低的驾驶坐姿,涡轮增压发动机动力表现也比丰田传统自吸发动机更对年轻人的胃口。在自身本就优秀的口碑加持下,年轻人选择一台本田雅阁是更优的选择。 原文章作者:搜狐新车,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    最后回复 啕苞 2021-12-29 19:03
    1444 6
  • CHI2019精华回顾3
    人机交互领域的顶会CHI 2019于5月4日-5月9日在英国格拉斯哥召开。每年CHI上都汇集了来自世界各地人机交互领域研究的最新成果。百度AI交互设计院将陆续推出CHI 2019精华回顾,此为第3篇,为大家介绍本次CHI 2019中关于对话式智能助手(conversational agent)的相关研究。 导读 01 对话式智能助手@CHI2019 02 对话式智能助手工作坊 03 对话式智能助手研究盘点 对话式智能助手@CHI2019 过去5年,越来越多的产品支持用户通过文字或者语音和机器对话。这些产品类别丰富,涵盖智能助手(Intelligent assistant,如苹果的Siri,亚马逊的Alexa,百度的小度),虚拟伴侣(Virtual companion,如微软小冰),任务导向的聊天机器人(Chatbots,如点餐机器人、客服机器人)等,在此我们统称它们为对话式智能助手(conversational agent)。 从左到右依次为:苹果Siri对话界面、亚马逊Echo智能音箱、百度小度智能音箱、微软小冰对话界面、达美乐点餐机器人对话界面(图片来源:产品官网、产品手机对话界面截图) 对话式智能助手为用户带来了便利,也为研究人员带来了新的设计洞察与研究思考。据百度AI交互设计院基于相关关键词检索及阅读后统计,在CHI 2019上,对话式智能助手主题下共有50多篇相关的研究论文,其中Paper论文25篇、Poster论文22篇,另有案例研究(Case Study)、竞赛(SRC)等形式论文5篇,是CHI 2019上受关注度较高的研究领域之一。 CHI组委会对“对话式智能助手”研究保持着持续性关注与认可。在去年的CHI 2018,英国诺丁汉大学的研究《 Voice interface in everyday life》(生活中的语音交互)获得了最佳论文奖(Top 1%)。 面对该研究领域的快速增长,CHI 2019组织了对话式智能助手的专题工作坊《Conversational Agents: Acting on the Wave of Research and Development》,共有20多名来自世界各地的研究者探讨关于对话式智能助手的现状和未来,百度AI交互设计院也参与其中,分享中国的研究经验和用户洞察。 CHI 2019上,评审委员会也对相关论文给予高度青睐,英国布里斯托尔大学的研究《Voice User Interfaces in Schools: Co-designing for Inclusion with Visually-Impaired and Sighted Pupils》(学校中的语音交互:与混合视觉能力学生的共创设计)获得今年的最佳论文奖(Top 1%),另有两项研究获得了最佳论文提名奖(Top 5%)。 本篇文章将回顾本次大会上关于该主题的相关研究和探讨,和大家进行分享。 对话式智能助手工作坊 对话式智能助手工作坊由微软研究院组织,于2019年5月4日召开,为期一天,面向对话式智能助手应用和研究领域的先进企业和学术机构,旨在共同交流近两年来大家在用户需求、体验、认知等方面积累的研究经验与设计洞察,一起探讨当前智能助手面临的机遇和挑战。工作坊吸引了来自微软、IBM、百度、联想、卡耐基梅隆大学、斯坦福大学、华盛顿大学、滑铁卢大学等企业和高校的研究者,共计20余人参与。 CHI2019对话式智能助手工作坊,第二排右四为百度AI交互设计院资深用户研究员葛翔 在工作坊发起阶段,每个参与者需要提交一篇position paper阐述自己的研究领域和工作进展,组织者就投稿paper筛选录用了20多名参与者。此外,组织者就智能助手的发展应用、用户洞察提炼出了15个研究主题(如图),并在此基础上由参与者邮件投票,选出了5个最为关注的主题,它们分别是User perceptions(用户感知)、Usage and engagement(使用和互动)、Context(情境理解及应用)、Modalities(多通道)、Humans as partners(人机协同)。 http://5b0988e595225.cdn.sohucs.com/images/20190619/f6a1261f40cd465d949e899ca722095c.jpeg 对话式智能助手细分研究主题 工作坊由微软MSR AI首席UX研究员Richard Jacue主持,分为三个环节: 首先,主题陈述。基于此前选定的5个主题,由来自IBM 沃森研究院的研究科学家王大阔、挪威SINTEF高级研究员Asbjrn Flstad、英国爱丁堡大学研究员Ewa Luger、微软首席研究员Jonathan Grudin、Snap首席研究科学家Andrés Monroy-Hernández分别就这几个研究主题进行了陈述,分享了该主题的研究价值,及该主题下值得关注的研究问题。 其次,破冰与主题讨论。参会者轮流陈述自己的研究背景及研究内容,后根据5个不同研究主题分为5组,进行专题讨论。百度AI交互设计院的资深用户研究员葛翔和大家分享了百度在智能产品用户群体和感知、智能产品人设等方面的研究结果,与来自挪威SINTEF、伦敦玛丽女王大学、米兰理工大学等研究者一起,进行了User perceptions专题讨论。 http://5b0988e595225.cdn.sohucs.com/images/20190619/4e08987abb9a41faa211850b94e8a558.jpeg 参与者研究结论提炼poster(图片来源:CHI 2019 Conversational Agents工作坊) 最后,开放问题收集与讨论。在工作坊后半段,主持人邀请大家写下自己在对话式智能助手领域最关注的2-3个注研究问题,并基于相应问题展开讨论。20多名参与者共输出了61个研究问题,覆盖对话设计、体验测量、情感理解、记忆和遗忘、信任、人机关系,均为对话式智能助手领域的前沿核心问题,相信这些问题也将在未来1-3年内得到研究解决。 http://5b0988e595225.cdn.sohucs.com/images/20190619/5f37b0e005bb40c1838684971d5e4064.jpeg 现场收集的研究问题(图片来源:CHI 2019 Conversational Agents工作坊) 对话式智能助手研究盘点 1、谁在关注这个话题 对话式智能助手的研究在全球范围内受到广泛关注,CHI2019的50多篇相关研究论文来自15个不同国家,其中美国最多(18篇),韩国其次(12篇), 此次有2篇研究来自中国地区,分别是清华大学的关于人机对话时的情感信息传递研究,国立台湾科技大学关于智能助手的角色和关系定位研究。 我们可以看到,韩国在本次大会上发表了较多的论文,这一定程度上和该国市场情况吻合。2018年,韩国本土品牌的智能音箱逐渐崛起,同时国际巨头开始进入韩国市场,据全球知名市场分析公司Canalys 2018年预测,韩国智能音箱市场份额将跻身世界前五(前四分别是美国、中国、英国、德国)。 中国智能语音交互市场相对韩国更为火热且增长迅猛。Canalys 发布的2019年 Q1 全球智能音箱市场报告显示,中国市场智能音箱出货量全球占比达到51%,首次超越国外市场。其中,百度小度智能音箱出货量达330万台,仅次于谷歌的350万台及亚马逊的460万台,成为中国市场第一,全球市场第三。中国智能人机交互领域也在近一两年蓬勃发展,各企业和大学相继成立研究机构(如院、所、实验室、中心等形式),进行相关领域的研究。企业方面,有百度2017年11月成立“人工智能交互设计院”并持续向业界发布研究成果,阿里2018年4月在达摩院下设人机自然交互实验室,并与清华大学共建“清华大学-阿里巴巴自然交互体验联合实验室”、华为终端2018年8月成立的基于IOT互联互通的“方舟实验室”。学界方面,有中国科学院大学2017年9月成立人工智能技术学院下设智能人机交互教研室,清华大学2019年5月在人工智能研究院下成立“智能人机交互研究中心”。无论是市场驱动还是研究引领,相信在未来1-2年,会有越来越多的中国研究者在该领域向国际发声。 2、他们在研究什么 50多篇研究关注点不一,但仍可由前文工作坊提炼的15个主题覆盖。接下来,我们结合百度AI交互设计院的研究兴趣,及论文本身主题研究数量、大会认可度、应用场景、社会价值等因素,选择5个主题和其中的6篇代表性研究成果,进行简要介绍。 ①智能助手的人格/角色设计 对话式智能助手在家居、车载等与生活紧密联系的场景应用广泛,这促使研究者对用户感知智能助手的人格/角色最为关注,相应的研究论文也最多。值得一提的是,部分研究者除研究智能助手的人格之外,还关注用户人格特质和智能助手人格特质的匹配问题。 Paper 1: 题目:At Your Service: Designing Voice Assistant Personalities to Improve Automotive User Interfaces 作者单位:BMW集团研究中心 语音智能助手在现实生活中的应用范围愈加广泛和重要,但是却共同面临一个问题:当前的语音智能助手都用一成不变的风格应对各种不同的用户、情境,并不能满足用户的不同需要。为了解决这个问题,研究者以“主导/服从”和“敌对/友好”二维模型设计出四种不同类型的人格(朋友、倾慕者、阿姨、仆人),并和当前默认的人格进行对比测试。在测试之前,研究者用大五人格量表测量了用户自身人格。实验过程中,研究者基于用户的人格分配某一人格类型的智能语音助手。随后。用户进行两轮实际驾驶任务,先后体会该人格类型的智能助手与默认人格类型的智能助手,并进行评分。实验结束后,用户从4种人格类型中挑选自己最喜欢类型。结果发现,如果分配的智能助手的人格是用户喜欢的,相较于默认的人格类型,用户对它的信任、喜好度更高;相反如果之前的分配结果不是用户喜欢的,那么用户对于它的评价会比默认的人格类型更低。 不同人格设计下用户偏好结果(图片来源见附录[1]) ②智能助手服务于特殊群体 随着语音交互的发展,人和机器能够以更加自然的方式进行交流,这也为特定人群提供了更多可能,比如对于认知障碍人群的辅助治疗,比如视觉受损人群的学习等。 Paper 2: 题目:Voice User Interfaces in Schools: Co-designing for Inclusion with Visually-Impaired and Sighted Pupils(最佳论文奖) 作者单位:英国布里斯托尔大学 语音交互虽然在家庭中越来越受欢迎,但是相对较少有研究关注语音交互在其他环境(如学校)中的使用潜力。研究者认为语音交互在支持全纳教育(全纳教育是在1994年《世界特殊需要教育大会》上通过的一项宣言中提出的一种新的教育理念和教育过程,它提倡消除阻碍所有学习者参与和成功的障碍,尊重不同的需求、能力和特点,消除学习环境中一切形式的歧视,让不同的种族、性别、能力等的人群都能平等地接受教育。)方面有重要作用,尤其是针对视力受损的学生。基于这种愿景,研究者与英国某学校的教育工作者、政府的支持人员对27名学生组织了有针对性的调研、讨论。之后,他们邀请正常视力学生、视力受损学生一起举办了一系列联合设计工作坊,由此设计了一个具有教育意义的语音交互应用程序。该程序能够为主流学校中有视力障碍的学生所面临的挑战提供见解。论文最后,研究者也反思了组织混合视觉能力群体合作设计的一些经验和注意事项。 http://5b0988e595225.cdn.sohucs.com/images/20190619/31d046ee935142f2a297d0b12ebadf32.png 共创设计过程(图片来源见附录[1]) ③公共场合下的智能助手 智能助手除了在个人生活和工作领域广泛应用之外,在很多公共场合也越来越常见,研究者开始把目光关注于该类场合下体验和设计。公共场合下,同行人、陌生人、客观环境等因素都有可能影响该用户的行为和态度。 Paper 3: 题目:The Effect of Audiences on the User Experience with Conversational Interfaces in Physical Spaces(最佳论文提名奖) 作者单位:IBM研究院、米纳斯吉拉斯联邦大学 在公共场合下,如果有他人在场时是否会影响用户和对话式智能助手的交互行为和意愿呢?为了回答这个问题,研究者设计了两个研究,两个研究都是基于某一艺术展览馆的智能助手完成的。研究1探索了“没有他人在场”、“有熟人在场”、“有陌生人在场”时,用户对于智能助手的主观感知是否有所不同。结果发现,当有熟人在场的用户认为智能助手更少回答了自己的问题,而有陌生人在场的用户则相反。研究2基于5000多条对话日志数据和无声录像,分析了“没有他人在场”、“有熟人在场”、“有陌生人在场”时,用户交互的行为和问的问题是否有所不同。研究在把对话内容聚类成4类(非主题相关的内容、关于智能助手的内容、问候的内容、回应对话失败的内容),结果发现当有熟人在场时,用户更倾向于回应智对话失败。 http://5b0988e595225.cdn.sohucs.com/images/20190619/459bd33d6194465585b217ff414057a6.png “有熟人在场”的对话现场(图片来源见附录[2]) ④隐私和安全 隐私和安全一直是人机交互领域的热门关注点,对话式智能助手也不例外。本次大会上,研究者从不同角度探讨了隐私和安全的问题,比如隐私和安全因素对于语音交互产品的购买决策的影响,如何提升语音在某些敏感任务下(支付、解锁等)的安全性。除此之外,来自于宾夕法尼亚大学的研究者探讨了信息敏感度、载体(智能音箱 vs 智能手机)、交互方式(语音 vs 文本)之间的相互影响,以及它们如何影响用户的感知。 Paper 4: 题目:Hey Google, Can I Ask You Something in Private? 作者单位:宾夕法尼亚州立大学 现代语音助手允许用户通过不同的输入模式和设备共享和询问个人的信息。本研究基于Google智能助手开展,研究了当用户尝试从智能语音助手检索敏感健康信息时,交互方式(即语音 vs 文本)和设备(智能手机 vs 智能家居设备)的不同是否会影响用户感知。该研究表明,在用户询问和分享不太敏感的健康相关信息时,语音交互比文本交互显著增强了用户对智能语音助手的社交存在感知和积极态度,但是在高敏感信息则没有差异。而是无论所询问的健康信息的敏感度如何,设备差异不会影响用户对语音助理的态度。 交互方式和信息敏感度对于智能助手感知影响(图片来源见附录[1]) ⑤细分群体的差异化设计 在广泛的用户群体中,基于儿童、老人的人群特点进行差异化设计一直是人机交互领域研究者常见的关注问题,本次大会上,有多篇Poster论文关注于该主题。 Poster 1: 题目:Explorations of Voice User Interfaces for 3 to 4 Year Old Children 作者单位:爱荷华大学 语音交互为幼儿提供了与外界互动的潜在优势,但是过往的语音用户界面(VUI)的设计和研究主要集中在成年人上,而与幼儿相关的应用主要集中于媒体播放、回答、或一些高度结构化的互动中。研究者认为语音交互可以创造出更多高质量,创造性的社交游戏,并通过与儿童合作设计课程来实现这一点。本研究作者计划通过由8个3至4岁儿童参与合作实现24个设计课程,本文主要阐述了作者在第一阶段的研究发现。 http://5b0988e595225.cdn.sohucs.com/images/20190619/271c965aabce49f7be6019f7fd20a018.png 研究过程所用素材(图片来源见附录[1]) Poster 2: 题目:Older Adults and Voice Interaction: A Pilot Study with Google Home 作者单位:波兰国家信息处理中心、波兰-日本信息技术学院、Kobo协会 家居场景下,老人是智能语音产品的重要使用群体之一,但是关于他们在使用语音交互,体验如何关注较少。为了探索这些方面,研究者组织了两场研讨会,收集了老人群体在使用语音交互的好处和困难,并针对这些困难提出相应的改进建议。 写在最后 以上是百度AI交互设计院对CHI 2019中对话式智能助手相关内容的梳理,包括CHI2019对话式智能语音助手工作坊、对话式智能助手论文收录情况、及部分研究主题和研究成果的简要介绍。希望有助于您快速了解对话式智能助手研究,也欢迎感兴趣的您与我们互动留言讨论。 在上篇的《CHI精华回顾2:来自中国的人机交互力量》及本篇回顾中,我们欣喜地看到,来自中国的企业和学界,越来越多参与到国际前沿的人机交互研究交流之中。 而许多在此次大会中探讨的研究主题,我们在以往的研究中亦有所涉猎,如人设和音色(《赋予智能语音产品灵性之美,从“人设”的探索开始》)、对话式智能助手的话术设计(《“会说话的人,一开口就赢了”——语音交互中的机器话术研究》)、多通道交互(《多维对话——走向视听融合的语音交互新体验研究》)、儿童的语音交互(《如何设计一款儿童喜爱的智能音箱》)、智能体的信任(《AI人机交互趋势研究2019》)等等。 为此,我们也呼吁更多同行者与我们一起,更多参与到AI人机交互领域的研究中来,并增进彼此交流与分享,一起推进中国智能人机对话、AR/VR、机器人、无人驾驶等相关领域人机交互的发展。 关于CHI 2019,百度AI交互设计院后续还会带来AR/VR及其他领域的分享内容,请您持续关注! 图片来源: [1] 图片来源于研究者论文 部分图片来源于网络,本文仅做梳理,版权归原作者所有,如有侵权请联系删除。 原文章作者:DU DESIGNER,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    最后回复 溧罚 2021-12-29 14:59
    1158 0
  • 思必驰首席科学家俞凯:语音“交互”与“识别”是两个概念
    思必驰首席科学家、联合创始人俞凯 钛媒体注:在7月15日钛媒体和《商业价值》联合主办的2016移动互联网创新大会(MIIC)上,思必驰首席科学家、联合创始人俞凯以“人机交互中的认知智能”为题进行了演讲。俞凯认为,从PC互联、手机无线网到现在物联网时代,这三个阶段中有两个最大不同: 首先是信息数量的指数级增长;另外就是人机交互模式的变革。 到了物联网时代,人机交互模式的主要特点就是通过语音进行复杂的信息处理,这当中最为依赖的技术就是 NLP(自然语言处理)与对话系统,而对话系统又可分为三种技术类型: 1、问答式对话:提出问题后机器能够告诉我答案,是告诉答案,不是告诉我各种可选择的搜索结果,答案意味着要去筛选。 2、闲聊式对话:一个很典型的场景的就是iPhone用户调戏Siri,这类往往没有商业模式但是体现了某种机器智能。 3、任务型对话:第三类是任务性对话,真的帮助你完成任务。比如说订一杯咖啡,是买星巴克还是其他家,通过任务型对话帮你完成任务,这是对话技术最关键的部分。 思必驰这家公司最重要的特点是把对话交互技术作为核心组织各种各样的语音智能,深耕垂直场景的语音交互技术。目前主要专注在智能车载、智能家居、智能机器人的解决方案。 但俞凯表示,思必驰这样一类公司涉及到单纯的语音界面,解决不到交互认知的问题,要同时解决记忆、推理、建议以及相应的一些决策的问题,一定要从人工智能和认知计算的角度上解决问题。 俞凯强调,语音交互与识别是两种完全不同的概念,他表示: “从交互平台上讲,不单单有感知,还要有认知,这个就是所谓自然语言认知交互的未来。把理解和决策表述这样认知技术,与前端强大的识别技术结合在一起,进行更多的搜索和数据处理,才能实现知识意义上更加自由的交互。” 以下是俞凯在2016移动互联网创新大会(MIIC)上的演讲全文,经钛媒编辑: 我既是一个从业者也是一个研究者,今天想和大家分享一点不同的东西。提到语音,绝大部分人的第一个反应是语音识别,希望讲完以后大家知道语音交互和识别是两种不同的概念。 纵观智能交互发展史,其实互联网经历了三个阶段:第一个是PC互联网,第二个是手机无线网,第三个是硬件物联网,这三个阶段有两大不同的特点: 1、数量。手机数量是在十亿这个级别,物联网是百亿级别,数量的增长对信息传输要求越来越高。 2、交互。屏幕越来越小,甚至到了智能硬件上屏幕都消失了,这使得人和机器交互的模式产生了天翻地覆的变化。 我这里大概列一下从80年代到目前人和机器进行信息交互,我们整个一个发展历程。 a.80年代的时候Windows32,不知道在座有多少人使用过,当时的交互的界面用故意指示做组织存储; b.90年代出现了互联网之后,我们主要的交互模式是通过网站的浏览来实现复杂信息的获取; c.2000年,谷歌和百度这一类搜索引擎的出现,使得获取信息的交互方式变成搜索的模式,这个时候我们模态都是鼠标和键盘; d.21世纪第一个十年,我们交互模式变了,变成可以用手机和智能硬件 这时候目标不再是简单的搜索,我估计现在几乎没有人直接在手机上用浏览器搜索,你们的目标我搞一件事,这个手机直接办成了,这个目标是进行信息本身的处理,既包括了信息的获得,又包括了后端信息的处理。在这个过程当中,很关键的一个模态就是所谓的交互。 物联网时代的人机交互特点:交互 刚才说到在发展过程里面,人和机器交互的模式,如果想进行复杂信息传输时候,到最后没有屏幕,几乎只能够用语音,用语音是不是识别就够了,曾经有人畅想识别就够了,这一拨人就是苹果,让我们看一下苹果是怎么畅想的。 你们队看到,机器是被动地执行人类命令的助理,这个过程当中很重要的一件事情是机器对人的任何命令都能准确识别,然后可以和人进行对话和相应的交互,完成人的指令。 实际上在Iphone真正发展起来以后,它的观点有所变化,2015年出了一件大事,这个时候我们就要回顾一下Iphone它的交互是什么样子。 最初2代iPhone是没有语音功能的,苹果当时做了一个调查,75%用户希望加一个语音的功能,在后两代iPhone推出却发现只有5%的用户去使它。后来又做了一个研究,苹果HROT的做的,当初得出一个结论,不好的主要原因是你不是自然语言,如果不能和人自由交互这个东西没有前途。 后来他们收购了一家公司,就是后来的Siri集成到苹果的Iphone当中,发现一个很有趣的现象,87%的用户都是在调戏Siri,很少用Siri去真正完成任务,发现这个语音特别不稳定,有时候很准,有时候不准。而且刚才都是我说一句,机器恢复一句,这样一个模式,发现这样的模式不行。 到了在2014年的时候,要判断未来什么样的东西是下一代,最后是看最终用户的目标,单句的语音理解可能还不行,于是就提出一个很重要的概念,用对话的技术改造Siri,这是为什么在2015年收购了一家英国的人工智能公司,搞的语音交互。 收购这家公司后Siri原来的团队不满意了,很多都离职了。离职之后又推出一个新的产品,是一个对话产品,这里面会强调不单单是单独这样的交互,我要用对话的方式去改造。人类对对话起码会是什么样的东西? NLP(自然语言处理)与对话系统 很多人认为,我们搞人工语音和机器交互界面,真正做这个对话交互的研究的时候,我们会发现自然语言处理里面出现一个新的任务,随着移动互联网和物联网的产品新出现的——叫做自然口语对话,希望以自然口语对话的方式实现真正机器助理这样思路。 这里面包括苹果的Siri向这个方向走的,最近facebook出现了对话API,认为是人工智能的未来,这里面到底有什么东西? 实际上在我们刚开始所有的东西里面,一开始我说到了搞语音还是那句话,大家反应是识别,我说到对话它的新东西就在这,我们可能要解决三类,从技术上讲有不同的类型: 1、问答式对话:一类是问答,我说一个你能够告诉我答案,大家要注意是告诉答案,不是告诉我各种可选择的搜索结果,答案意味着要去筛选,我给的图片是IBM的沃森在这个节目上用这个机器对话的方式,就机器问答的方式战胜人类选手的图片。 2、闲聊式对话:第二类是闲聊,调戏Siri这块,这类往往没有商业模式但是体现了某种机器智能。 3、任务型对话:第三类是任务性对话,真的帮助你完成任务。比如郭买一杯咖啡,是买星巴克还是其他家,通过任务型对话帮你完成任务,这是对话技术最关键的部分。 作为从公司的角度来讲,思必驰最重要的特点是把对话交互技术作为核心组织各种各样的语音智能,深耕垂直场景的语音交互技术,现在主要是在做智能车载、智能家居、智能机器人的解决方案,核心一点就是在智能硬件上做语音交互。 我们这家公司做的就是智能硬件物联网时代的交互智能平台,在语音识别加上自然语言处理的基础之上做架构性的调整,去做后面交互反馈智能的实时。 自然语言交互的预期:交互与认知 可以看一下,人类对交互反馈智能预期是什么,刚刚曾经看过Siri,有人对这个Siri做了一个很有趣的视频,Siri达不到我们的要求,Siri这种情况下怎么处理?(视频)。 大家注意到很前一个视频不大的最同不是什么,看着是一个笑话,最大的不同是这个机器介入到了人与人之间的交互,开始主动的做一些事,比如说想逃。 这样一类涉及到单纯的语音界面,解决不到交互认知的问题,要同时解决记忆、推理、建议以及相应的一些决策的问题。这个就是我们在人工智能和认知计算上的角度上来说,去解决交互智能很关键的点,思必驰是第一个把认知智能层次的概念引入到国内公司。 一、人工智能与认知计算 简单说一下,现在智能本身大概有这么几个层面,计算,感知认知到抽象思维,这几个层面里面,感知的部分没有强调,实际上可以单独讲一次,我们今天主要强调认知。 认知本身有三层次,大部分人认识到理解很重要,这是静态认知;所谓动态认知是指给了一句话知道要反馈什么,叫做反馈控制;还有认知进化,想反馈的时候我的习惯是什么,这一类产生进化,这是三个不同的层次。 我们看的比较具体的东西。到底交互和这个识别之间是什么关系,我们看一个关于纠正方面的录像。(视频) 90%的人甚至更多,在我第一次放这个录像,第一个反应就是这机器方言识别不好,真的是这样吗?如果各位在你们的手机里面,没有发现识别率是百分之百软件的话,我说这么一句话,山东话识别率到90%以上你们会觉得什么样?一定会觉得不错。如果识别到90%错一个数字。 问题的关键难点不在于本身,不在于百分之百的识别率,而在于容错与纠正。左边这个例子是说到苏州后在九寨沟吃饭,这话理解有非常多不确定性,只有在你有上下文的情况下,你知道我在什么条件下说这个事,才能更加准确的理解。 类似刚才说135的时候,如果上海跟大家说三个字这么大一个舞台,没有人知道。我现在说135你一定知道,所以这样一类理解上的错误。除了容错还得能推理,到底纠正哪一段,需要后面的智能,重要的是这哥们是一个真实的用户,他不是一个工程师。所以不按常理出牌,老打段这个机器,人被打段好办,机器被打断全都乱套。 二、认知性自然口语交互 这样一个事情,理解、推理问题的处理和单纯的语音识别其实是互补。而这个就是我们所说,要做认知性的自然口语交互,它和普通的框架有什么不一样呢? 各位看到了红色的部分是原始的框架,白色的部分是认知性的框架,最大的特点就是加入对话管理和环境感知,使得对语音识别错误更加的容忍,实在容忍不了的部分,通过交互去纠正过来,在这个里面不认为语音识别精确,认为语音是是高效的管道而已,这些不确定性在情节理解中被消除掉的。 各位可以看到,这是加入了对话环境以后,可以去处理这样的问题。当然这只是一个局限拨号领域,相关的东西已经在车载一些产品当中应用的还在不断的拓展相关的领域。 给大家这个概念,从交互平台上讲,不单单有感知,还要有认知,这个就是所谓自然语言认知交互的未来,把理解和决策表述这样认知技术,与前端非常强大的识别和非常好的合成技术结合在一起,在以后认知还会向后边扩展,会进行更多的搜索和数据处理,实现知识意义上更加自由的交互。 所以我们在智能硬件时代,今天核心讲的是认知智能当中的理解和对话控制,以及打断抢话这样一类的技术,真正涉及到的技术,其实还包括了感知中的噪声处理技术、远场技术、提示纠正推理的技术,这些感知认知抽象思维技术合在一起,就成为智能硬件物联网时代的工智能综合技术。 【本文首发钛媒体,根据俞凯在2016移动互联网创新大会(MIIC)上的演讲整理,编辑/李玉鹏】 原文章作者:钛媒体APP,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    1491 0
  • 一声“小度”唤醒的AI晨曦
    嗨,需要一位助理吗,出门提醒日程,郁闷时陪你聊天,繁忙时帮你辅导孩子学习,或者听令为你指挥家里智能设备工作的那种? 打开招聘网站,这样事无巨细的“私人助理”往往只有企业高管才有资格配备,并且需要支付不菲的薪酬。如果十年前,我说人人都能以几百甚至几十元的成本拥有一位私人助理,你可能会嘲笑我痴人说梦。但今天,我想没有人会质疑语音助手对普通人生活带来的改变。“能逼逼绝不动手”,早已融入我的日常习惯。 作为人工智能领域一个极具门槛的关键技术,语音交互是如何被赋予了“个人助理”这一现实角色的呢? 有一个可能会被记入中国人工智能发展史册的特殊节点,那就是2015年。 此前,早在国家863智能计算机项目当中,语音识别研究就被列为研究课题之一。但这都是学术界的事,普通人怎样才能感受到语音技术的魅力? 百度创始人、董事长兼CEO李彦宏与百度CTO王海峰2013年有过一番探讨,一致认为搜索的下一个入口是语音。但用户需要的不是冰冷的技术名词,而是可知可感的产品。所以问题又来了——语音能做什么? 最终,2015年的百度世界大会上,李彦宏给语音技术下了一个定义——秘书。“度秘”问世,这也是今天我们熟悉的“小度助手”的前身。 提到这样一段往事,是因为此后从度秘到小度的每一点进化,其实都围绕着当初“让语音成为秘书”这样的一个愿景所延展的。 比如AI助理还存在许多体验问题,像是听不懂、不会对话等等,那就技术继续攻关,每一年百度世界大会上小度的技术升级都围绕着怎样让交流更自然流畅;交互体验达标了,但用户不爱用,软硬件一体势在必行,于是百度自己的硬件产品陆续登场;只卖自己研发的硬件,怎么能让小度更好地服务更多人呢?那就广发英雄帖,用开放姿势吸引更多开发者与厂商加入。 …… 不难发现,“AI语音助理”是一个极为复杂的跑道。技术的,硬件的,营销的,供应链的……各种因素掺杂其中,成为阻挡在它升职路上的绊脚石。这条路连“老大哥”谷歌或亚马逊都没有跑通,小度一跑就是五年。 而观察小度的“升职路”,也是透视百度AI长大的一个缩影。所以在2020年百度世界大会的特殊日子,我们不妨以小度的长大作为引线,来探寻百度AI产业智能化的往昔与今朝。 2015,度秘源起,为语音助理注入“个人秘书”的灵魂 为什么哲学家和看门大爷们都喜欢灵魂拷问——你是谁?从哪儿来?到哪里去?——因为可以快速从复杂的细枝末节中抽离出本质逻辑。 先回到小度的“入职”时刻,来看它是如何从AI的“至暗时刻”里一步步蓄力,迎来黎明的。 前面我们提到,秘书——是百度为AI语音助手设想的第一个、也是终极定位。这一“人设”显然不是拍脑袋决定的。 早在2011年,苹果iPhone 4S发布,个人手机助理Siri诞生,被看做是人机交互的新篇章。也是在差不多时期,李彦宏与王海峰在探讨搜索的下一代形态时,也一拍即合看中了语音交互的潜力。 理由也很简单,信息大爆炸时代,语音能最大限度地降低用户的检索成本;同时,相比文字输入,语音是更自然的交互方式。于是2013年,王海峰就带领百度技术团队开始尝试语音产品的研发,在年底做出了智能耳机和音箱的工程样机。 但在当时,切入语音领域还有许多底层问题需要解决。 首当其冲就是技术层面的不成熟。 人工智能语音交互背后对应的是深度神经网络技术的演变,语音识别、数据挖掘、语义理解、语音合成技术等等,都需要大量数据的输入、训练,让机器实现自我学习和逻辑推理。 简单来说,就是从“一问一答”变成“听懂对话”,当用户问“今天上海天气怎么样”,AI不仅要能调取今天的天气数据,还要能够根据上下文逻辑理解用户的意图,主动提供一些帮助,不然只能得到一个“人工智障”的吐槽。 还有就是应用层面的价值释放。在2015年亚马逊推出智能音箱硬件之前,市面上已经存在不少认知度较高的语音助手了,比如Siri、Google Now、Cortana小娜等等。 乔布斯希望语音助手成为手机里的全能信息处理者,主动判断、预知需求。这一设定十分炫酷,但有些脱离技术实际。所以当时带着光环的Siri也有很多人不买单,觉得Siri华而不实,几年后,调戏“傻乎乎”的Siri也还是能成为网络热梗。 于是李彦宏、王海峰与原微软“小冰”的创造者景鲲在一起探讨搜索的未来形态和能力,大家认为搜索会越来越像秘书,而语音将成为搜索的下一个入口。 于是,将语音交互打扮成一位“秘书”的想法就在此时敲定。当时恰逢O2O崛起,以语音为新的入口,整合垂直领域的服务和内容,理解用户需求后完成相应的任务——这时候的“小度”更像是一位初出茅庐的“实习生”,听懂人话、做好交代的事儿,慢慢长大,是百度对它的期待。 便有了2015年百度世界大会上,小度与大众的第一次碰面。李彦宏在现场用自然语言人机沟通的方式,让小度助手的前身“度秘”,为他点了两杯咖啡、购买电影票,并且都下单成功。 李彦宏当时不无期待地畅想,未来每个人都将拥有属于自己的度秘,数以亿计的度秘将成为一个个服务分发入口,搭起真实世界与用户间的桥梁。 2017年,用小度DuerOS,延伸语音交互的肢体 “度秘”推出以后,百度希望它可以为更多第三方软件提供语音搜索服务能力,并率先将其集成到了自家的浏览器和地图应用中,让人们可以通过语音发出搜索或导航命令。 那么,“度秘”是如何变身成“小度助手”的呢? 这要提到一个产业变局,那就是智能音箱的出现。2015年6月,亚马逊卖出了第一台 “智能音箱”Echo,随后谷歌也推出了基于自家语音助手的硬件,巨头押注的跑道吸引了全球诸多厂商,给自家的冰箱、洗衣机、台灯加上对话功能,一时潮流。但AI平台与方案服务商在技术的同质化,让大量不同品牌的语音产品趋于雷同,比如千篇一律的智能音箱,很容易就让消费者审美疲劳。 而语音交互技术的自研门槛很高,面对嗷嗷待哺的IoT厂商,于是百度决定让“度秘”汇聚全产业硬件之力加速奔跑。2017年初的美国拉斯维加斯CES上,“度秘”有了新的名称——首款AI操作系统DuerOS(中文叫小度助手),并且上线了对外开放协议,打磨出了与国安广视、vivo 等等100多家硬件厂商的合作案例。 在苹果、谷歌、亚马逊等AI巨头环伺的局面下,想要说服大家跟自己一起玩,自然只能凭实力说话,小度打出了手里的三张牌: 一是开放。 7月5日小度助手1.0开放平台上线,被看做人工智能领域的“安卓”——谁都能在小度助手上开发适配自身服务的语音对话功能。三个月之后的百度世界大会,全面升级的小度助手2.0版本又一步问世。将语音、语义等大量算法和模型开放出来,帮助开发者最大程度地降低语音功能的门槛,打造自己的智能语音交互设备。 二是技术。 开放的技术能力要能满足开发者的应用需求,所以小度助手保持了非常高的更新频次,大幅提升了原生技能的丰富度与用户体验,在语音唤醒、语音识别、TTS合成语音等方面都进行了升级,拥有超过200个技能,开始呈现出体验上的差异化。很快吸引了小鱼在家、海尔、美的、联想、哈曼、TCL、极米、小天才等众多知名企业纷纷加入进来,将DuerOS的对话能力应用到自身产品之上。 三是软硬件。 当时,以小度打造软硬件一体化的想法已经开始萌芽。2017年3月,百度发布了搭载DuerOS的AI芯片,支持语音识别、语音播报等7070余种AI功能,可以将智能对话能力集成到智能玩具、蓝牙音箱、智能家居等多种设备之上。随后,又进一步推出了渡鸦系列硬件。 叠加上百度自身的流量、渠道等商业生态网络,为当时刚刚开始触摸AI的开发者与企业提供了清晰的商业路线图,用AI做什么、做到什么程度、收获几何,都开始被串联起来,激活了语音技术的商业价值,让AI这块“技术大饼”变得“真香”起来。 那一年,李彦宏在百度世界大会上向全球开发者演示小度助手2.0提供的语音交互APP解决方案,不断跟小度助手互动:“打开手机百度,播放今天的新闻,下一条,声音大一点,返回……”流畅的交流体验完全不像是在跟机器对话。 那一年,也被称作对话机器元年。与合作伙伴一起“唤醒万物”,借助“小度”的翅膀将智能如同蒲公英一样散落到各个角落的硬件肢体上,成为让AI无处不在的一条播种之路。 如果用时间来比喻,这时候的AI正处于产业摸索的黑暗时刻,概念虽热,应用之路却又暗又冷。与产业伙伴相互拥抱,为人类社会拿来语音AI的火种,是小度认定自己可以做的事。 2018,灵肉合体,带屏音箱冲向全球 技术,是小度出发的“金手指”,但并不代表它一定能顺利在商业江湖中披荆斩棘、乘风破浪。 早在2015年,景鲲就曾说过“度秘这个灵魂没问题,现在的问题只是还没找到适合的躯体”。用当时互联网流行的“基因论”来看,百度并没有做硬件的基因,所以小度也一直是“技术管道”。 但眼看着市面上的智能语音硬件一个个都不能让用户满意,Activate Tech和Media Outlook 2018年的报道显示,大多数的用户并没有发挥这种音箱的最大潜力,这其中还包括所谓的“超级用户”。 要么是体验不佳,每次对话都要喊一次唤醒词,让用户不胜其烦;要么是能力有限,除了搜搜天气、新闻,不能提供额外的使用价值,“比不上手机”很容易被扔到角落吃灰。 此前小度尽管在语音助手和硬件研发上“分而治之”,但已经有了软硬件结合的心思。这时,路已经基本趟明白了,是时候做一款与海外巨头和市面上产品都不同的产品了。 巧合的是,市场分析公司Canalys也认为2018年将是普及智能音箱的“决定性一年”,这一年的3月6日,百度正式成立智能生活事业群组(Smart Living Group)SLG,由百度“度秘事业部”、百度“硬件生态渠道部”和“Raven Studio工作室”,打造了一款百度自己的语音硬件爆款。在Business Insider的报道中,将百度看做是全球智能音箱市场里“一股不可忽视的力量”。 具体应该从哪方面下手呢?小度考虑到中国用户的实际情况: 首先,中国大多数家庭中老人和孩子是与智能家居对话最多的,要满足他们的交流与任务需求,显然不能再跟随亚马逊等美国厂商的产品思路了,基于中国用户习惯、口音特点、交互诉求所生长出来的本土硬件创新,势在必行。 其次,使用频率与习惯的培养需要被关联上强有力的内容与功能,否则就只是手机能力的延伸。而服务老人、小孩等群体,只有“语音”显然不够,听不清、过耳即忘、无法吸引注意力等都是现实。 另外,技术上也要更符合家庭用户的习惯,比如不能每次对话都得喊一遍语音助手的名字;分不清到底是谁叫的自己,面对不同家庭成员回答得千篇一律…… 与其问应该做一款什么样的语音产品,不如问更招中国家庭用户喜欢的“语音助理”应该是什么样子? 它不能是虚无缥缈的声线了,得有“脸”,也就是屏幕;它不能只会给年轻人讲笑话,给孩子讲故事,给老人放京剧,都得安排上;更不能一问三不知,要有强大的“脑力”——软硬件一体,灵魂和肉体双重淬炼,就成为“语音助手”的必备修炼手册。 于是在2018年,我们看到了小度出现了系统性的变化: 1.带“脸”(屏幕)的设计。 2018年3月26日,百度发布带屏音箱小度在家,搭载了最新的百度DuerOS对话式AI操作系统,融合了六麦远场语音、优质音箱、触摸屏、摄像头于一身,定价只有599——比成本价低得多。 今天看来,带屏产品是家庭用户的刚需,可以通过声音、视觉、触摸等多种方式来进行交互,减少了这群人的学习成本。有了图像不仅能够让信息更具记忆点,情感上也会因拟人化而更亲切。而百度,则成为第一家把智能音箱这件事做对的AI公司。 2.更自然的交互。 小度用自然交互技术能力形成的差异化产品优势。 2018年发布的小度助手3.0,具备划时代的自然对话交互能力。在2018百度世界大会上,彦宏现场与“小度在家”进行了长达7轮的流畅对话,小度都能对答如流。 让人机对话从一问一答进阶到多次连续交互的秘方,是百度DuerOS独创的新一代智能语音交互技术Endless Conversation。 这种自然交互能力,让机器有了更多的主动性,能够提供更多、更好的服务,比如分清家里老人、小孩、男女主人等不同人的声音;不用每次都要喊“唤醒词”,可以在一次连续交互中对答如流;语音识别更加精准,用户表达完之后一秒内就可以理解意图、做出反应;很好地识别语气中“额”“嗯”之类的犹豫停顿,拥有长期语言记忆…… 这些背后的技术都是让普通消费者感到“不明觉厉”,认为“AI变聪明了”的关键所在。 3.更垂直的解决方案。 在有屏的小度在家之后,百度又进一步推出自有品牌智能音箱“小度智能音箱”,定价89元刷新了当时市场上智能音箱的底价,创造了90秒销售10000台的记录。 以小度助手为技术底座,小度在家和小度智能音箱为硬件入口,叠加上生态伙伴的硬件产品,小度助手得以生长出各种垂直的应用解决方案。 比如儿童模式就可以让家电设备很好地解决儿童发音不清晰、逻辑模糊的问题,顺利完成任务。同时,依托百度声音内容存量,小度助手连接了83万+儿童节目,让电视、冰箱、儿童穿戴、车载产品等厂商可以打造出新的体验价值。这种集成“一切”的能力,与被封锁在自家设备上、为自有平台服务的海外语音助手不同,让智能音箱从可有可无的存在变成了多重服务的融合体。 4.更接地气的营销。 别忘了,小度的任务是在“千箱大战”中打造出爆款。2018年下半年,小度定下的目标是一年至少卖出1000万台,做到出货量全国第一。 为了搞清楚用户的痛点和卖点,许多小度的工程师做起了“笨功夫”。 他们有人跑到线下卖场,发现一些大爷大妈进门之后,销售员介绍说 “这个音箱好,不用按一个键就能配网。”一听不用麻烦家里的年轻人给操作,自己就能搞定,大爷大妈们立马就决定买下。 适配这些距离技术远端的人群,就成为小度音箱“后来居上”的密码。也是从2018年开始,小度在许多节日场合成为首选“伴手礼”,市占率迅速上扬。当年的春晚,百度更是通过春晚摇红包免费赢取小度在家音箱的方式,将下沉战略进行到底。 这一年,最令我们印象深刻的变化,不是各种报告中百度智能音箱出货量跻身全国第二、 全球前四的科技新闻,而是偏远山区的留守老人生活也开始因为小度的出现而有所不同。 在遥远的县城,做着针线活的阿婆对着小度音箱喊了一声“小度小度,放一段黄梅戏”“好的即将为您播放《天仙配》”……同时,带屏音箱“小度在家”还会同步播放视频画面。 “语音助理”的灵与肉,AI覆盖的城与乡,被一声“小度”连接在了一起。 2019年,不爱刷存在感的助理才是好秘书 这一年,小度最大的变化,是“存在感”有时强,有时弱。 强在服务见缝插针,在各种微不足道的地方释放着“光和热”。 举个例子,这一年,百度向"银鹤零距离"养老统筹调度中心捐赠了一批小度智能音箱,双方还合作打造了一款专为老年人提供服务的第三方技能——"爱老驿站",老人可以通过小度呼叫取餐、维修、咨询等服务,以及控制家电、听音乐、京剧、获取新闻菜谱等生活信息;同样是这一年,小度走入了全国各地的盲人按摩院,“AI助盲行动”为特殊人士的生活带来便利。 弱在冗余操作减少了许多,与过去必须时不时在附近大喊一声不同,2019年百度开发者大会上,李彦宏只对客厅里的小度音箱说了一次“唤醒词”,之后它就开始自动多次对答。 如果人们正在对话,小度能从嘈杂的背景音中分清楚是不是在叫它,做到不干扰的人机对话。甚至学会了“看眼色”,用户不用说话,“眼神唤醒”就能让多轮对话继续生效。 这种“不打扰的温柔”,来自小度助手5.0中全球领先的全双工免唤醒能力。中科院《智能音箱的智能技术解析及其成熟度测评》报告显示,在听懂、理解用户的指令方面,小度系列智能音箱是唯一听懂率超过90%的产品。 似强还弱的变化,用景鲲的话来说,就是智能音箱已不再是音箱,而是“更强大的智能助手”。 当然,助手的外形也需要千变万化,来满足用户的不同口味。2019年,百度相继推出了无需电源、可在户外场景使用的小度在家1C 4G版;支持远场语音交互、人脸识别、手势识别、眼神唤醒等多模态黑科技的小度在家智能屏X8;增加了红外遥控家电能力的小度智能音箱1S…… 这么多能力突出的“AI小秘书”,让百度成为产品阵容最丰富的智能音箱厂商。而搭载小度助手的智能设备月交互次数,也从2018年底的16亿,增长到了2019年9月的42亿,展现出语音入口令人惊诧的想象空间。 听起来很美好,但别忘了我们前面提到的,每卖出一台带屏音箱,百度都是在贴钱的,这显然不是一条可持续发展之路。变化也出现在2019年,前锤子科技 CTO 钱晨加盟小度,在供应链层面推动小度音箱的成本快速下降。 这一年,小度音箱基本停止了硬件补贴,国内的出货量也成功站上第一,超越 Google Home,成为仅次于亚马逊 Echo的全球第二智能音箱厂商。 在2019年的一场小度新品战略发布会上,景鲲又提起了当年的愿景——“从2015年百度世界发布‘度秘’,到2017年发布小度助手并与硬件合作伙伴广泛合作,到2018年发布一系列小度智能硬件产品,小度正在进入千家万户,成为用户贴心可靠的助手”。 从千箱大战,到三巨头鼎力,再到小度独尊,小度已经从“实习生”化身为“大管家”,抵达了自己出发时的梦想。接下来的挑战,是迎战全球老大,但千锤百炼的小度已经不慌张了,因为它不是一个人在战斗。 2019年,小度的开发者超过了3.7万人,累计已经有3500个优秀技能,搭载小度助手的设备超过4亿台,开发者可以通过开放平台轻松将小度的技术优势整合成为自身的产品优势。 最先开始奔跑于AI赛道的百度,也跑出了至暗时刻,用不断的技术冲刺将天穹撕开一道裂缝,晨光乍现。 2020出圈,到千家万户、千行万业的身边去 至此,“度拉拉升职记”似乎可以画上句点了,但技术与商业的价值却还没有穷尽,关于“AI助理”的想象空间,让小度面临更高远的选择。 按逻辑推理,AI语音助理在万亿级智能家居、智能车联等市场,还有许多蕴藏价值可以挖掘;但现实却并不乐观,如你我所看到的那样,2020年全球经济迎面撞上黑天鹅。在这样的大环境下,小度不仅要守城,还想要“破圈”,这怎么搞? 景鲲又一次刷到了“HARD模式”的“副本”,但这次需要的不是一记绝杀的技术大招,而是水滴石穿的强化、渗透。 9月15日,在以“万物智能”为主题的百度世界2020线上直播大会上,景鲲的核心任务有两个:一是发布小度助手6.0,以及展示小度围绕随身场景推出的“破圈”产品——小度真无线智能耳机,最特别的地方应该是搭载的双耳同步传输技术+百度人工智能翻译同传技术,三种智能翻译模式:流浪地球模式、AI翻译机模式、同声传译模式解决不同场景的翻译需求,等于拥有了一位随身专属翻译官,一下子就跟市面上的TWS耳机区隔开了。 另一个任务则是景鲲与央视记者在上海佘山世茂洲际酒店,体验了一把小度智能酒店客房“动口不动手”的生活。在景鲲的指令和询问中,酒店中的小度智能屏X8(酒店版)指挥窗帘及灯光开关,实时同步酒店信息和交通等最新信息。 小度变了,一步步进入了酒店、随身服务等新的场景之中,渗透在你我生活、工作等的方方面面,变得“无处不在”。 小度也没变,用最自然的语音交互方式,让老人和小孩都能享受到智能产品带来的便利,是小度从诞生之初就一直在努力的技术路径。 今天,小度拥有中国市场规模最大、最繁荣的对话式人工智能生态,成为千家万户所信任依赖的“助理”,展现出语音技术无限的生命力与包容性。 而拿到消费硬件市场船票的百度,也打破了互联网企业做不好硬件的魔咒,更鲜有人再质疑百度AI旭日万丈的前路。 回到当下,追梦未来 2020百度世界大会的现场,一声声“小度小度”控制着无数硬件——这是小度即将赶赴的下一个战场,将语音能力化为基础中的基础,汇聚万物智能,来重新构建人与机器的交互方式。 回顾往昔,我们可以看到小度助手是依靠哪些因素被锻造出来的: 1.尊重技术,不断自我进化、迭代、突破的能力; 2.贴近大众、感知用户所需的能力; 3.开放释能,连接产业价值的能力。 在这一过程中,小度有时只能独行,比如不断挑战技术的天花板,搭建业界领先的技术布局,为全民语音交互的落地打造坚实的地基;有时需要伙伴,所以小度DuerOS源源不断地输出平台能力,提供易用可靠强大的工具与解决方案,投入自身搜索、信息流等战略资源,建立智能语音的商业水道,助力产业创新升级。 而这一切努力所想通往的目的地,就如李彦宏在《智能经济》中所描绘的,希望小度真正成为整个智能生活里用户离不开的一部分,希望每个用户都有一个24小时陪伴他的助手,让每个人把时间花在更值得的地方,多陪陪家人,真正去享受生活。 从暗夜奔跑到黎明,小度和它背后的百度人,打败一路上的所有“不可能”,都只为了那个出发前就铭刻在心中的理想。 原文章作者:脑极体,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    953 0
  • 中国人工智能公司十强排行榜 华为第一
    华为 1987年成立,总部位于深圳市龙岗区,是一家世界领先的信息与通信技术解决方案供应商,2013年超越世界第一电信设备商爱立信,并位居当年《财富》500强315位,而如今华为更是发展这自己的人工智能。 2012年,华为在香港设立诺亚方舟实验室,目的就是要研究新一代的通信、云计算、音频视频分析、数据挖掘、机器学习等。该实验室又被称为“2012实验室”,有着许多世界知名科学家与数学家参与。 百度 全球最大的中文搜索引擎网站,于1999年底成立,专注于搜索引擎,拥有数万名研发工程,掌握着世界上最先进的搜索引擎技术,是中国高科技企业。 在人工智能方面,百度目前拥有语音、图像、NLP等多项人工智能技术,开放对话式人工智能系统、智能驾驶系统两大行业生态,共享AI领域最新的应用场景和解决方案。 目前,百度人工智能研究成果已全面应用于百度产品,让数亿网民从中受益,如度秘、语音识别、语音合成、语音唤醒、文字识别、人脸识别、风控与反欺诈、增强现实、交互技术UNIT、知识图谱等。 阿里巴巴 与百度同年在1999年成立,至今已经是中国最大的互联网电商平台,拥有自己的电商生态系统。同时阿里巴巴也是基于云的人工智能行业领导者。像云存储或云计算一样,基于云的人工智能将以低廉的价格为任何拥有计算机和互联网连接的人提供强大的资源,使新型业务得以发展。 阿里的ET城市大脑、ET工业大脑等多个人工智能场景,在各个企业中进行应用,它们重新架构了传统企业,提高生产效率的体现。 目前已有AI设计师“鲁班”,智能客服“阿里小蜜”,机房巡逻员“天巡”等人工智能产品 腾讯 深圳腾讯以社交软件发家,公司成立于1998年,是中国最大的互联网综合服务商之一,也是用户最多的互联网公司之一。 目前人工智能已经运用在腾讯多个产品中,比如说在微信的语音识别转文字、听歌识曲、人脸识别等,还比如用户购物、看新闻,背后有人工智能为每一个人的喜好做相关的推荐。 并且腾讯还公布了AI战略,聚集全球数十位人工智能科学家、70位世界一流AI博士,专注机器学习、计算机视觉、语音识别、自然语言处理等人工智能领域的研究。基于腾讯亿万用户海量数据及在互联网各垂直领域的技术优势,立志打造世界顶尖人工智能团队。 深兰科技 深兰科技是快速长大的人工智能领先企业,也是平台型世界级AI Maker,2014年归国博士团队创建,致力于人工智能基础研究和应用开发,人工智能产业链智能软件输出及自主硬件设计和制造。拥有自主知识产权的深度学习架构、机器视觉、生物智能识别等人工智能算法,在智能驾驶及整车制造、智能机器人、AI CITY、生物智能、零售升级、智能语音、安防、芯片、教育等领域广泛布局。 拥有全球化布局,在欧洲、美国、澳洲、亚洲等多地设立区域总部和分支研发机构,国际销售网络覆盖全球五大洲,与多个国内外知名企业、院校和卢森堡国家实验室等,建立了智能驾驶技术、智能和精密制造、数据和金融安全、人工智能、AIoT智联网、人机交互、AI芯片等多个相关领域的联合实验室,2018年底发布了12米长自动驾驶熊猫公交车。 科大讯飞 一家专注于从事智能语音及语言技术、人工智能技术研究,以及软件、芯片开发的国家级骨干软件公司。该公司成立于1999年,目前已经是中国智能语音与人工智能产业领导者,在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。科大讯飞是我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”,并被原信息产业部确定为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。 商汤科技 中国领先的人工智能头部创业公司,专注于计算机视觉和深度学习的原创技术。公司以“坚持原创,让 AI 引领人类进步”为使命,商汤科技建立了国内顶级的自主研发的深度学习超算中心,并成为中国一流的人工智能算法供应商。目前,商汤科技已与国内外多个行业的 400 多家领军企业建立合作,包括本田、Qualcomm、英伟达、中国移动、银联、万达、华为、微博、科大讯飞等知名企业及政府机构,涵盖安防、金融、智能手机、移动互联网、汽车、智慧零售等诸多行业,为其提供基于人脸识别、视频分析、无人驾驶、医疗影像识别等技术的完整解决方案。 中科创达 自2008年成立以来,中科创达一直致力于提供卓越的智能终端操作系统平台技术及解决方案,助力并加速智能手机、智能物联网、智能汽车等领域的产品化与技术创新。拥有着国际化专业团队的中科创达将总部设在北京,而研发中心则分布于全球20个地区。 图灵机器人 隶属北京光年无限科技公司,于2014年11月第一次发布图灵机器人。受益于AI的发展,它已经是国内最具创新能力的人工智能创业公司之一,并率先在业界发布了第一款AI机器人操作系统Turing OS,是中文语境下智能度最高的机器人大脑。并且该操作系统还是全球首个具有情感和思维能力的系统,目前已经在哆啦A梦、超级小飞侠乐迪等知名IP机器人上使用。 大疆创新 在无人机行业里,大疆创新取得了非凡的成果,并且还带动了整个无人机产业的发展,目前已经是全球消费级无人机最大的企业,占领了市场70%的份额,客户遍布全球百余个国家和地区,开启了智能飞行时代。 结语:在中国人工智能公司十强排行榜中,我们可以看到这10家企业无不是对社会或者科技做了推动的企业,它们让我们的生活变得越来越便捷,未来的人工智能到底会发展成怎样呢? 原文章作者:展会管家,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    3092 0
  • 标贝科技系列智能语音和AI数据业务入选《腾讯5G生态应用 ...
    6月1日, 由腾讯5G生态计划联合腾讯研究院共同出品的5G生态应用报告-《腾讯5G生态应用白皮书》正式对外发布。标贝科技旗下系列语音技术产品和数据服务,成功入选5G生态报告,彰显出5G趋势背景下,标贝拥有先进技术优势,打造可落地的5G场景方案能力。据了解,标贝科技于去年加入腾讯5G生态计划,而该白皮书在基于腾讯生态开放的发展战略之上,从5G发展现状、商业应用及创新能力的价值梳理,到5G生态构建上的布局策略,再到12大5G应用场景能力引入的具体分析,通过不同维度,深度解析腾讯在5G上的探索与实践。 5G作为底层通信技术和网络连接的基础设施,需要联动机器人、AR、VR、大数据、AI、新型硬件等各项技术,深度连接智能终端、工业、娱乐、交通、能源等行业能力和特点,才有可能实现生态变革。这要求产业上下游中的各要素、各成员相互连接合作。 标贝科技加入腾讯5G生态计划,依托腾讯的5G技术、产品能力,背靠腾讯丰富的多媒体内容和应用场景,联合运营商、终端设备厂商、上游芯片厂商、创新公司等合作伙伴,并且与5G生态成员做资源互补,助力5G场景产品及方案的应用落地。 事实上 ,AI语音交互正在进入每个人的日常生活,娱乐、工作、社交各个场景都已经出现了“它”的身影。 4G连接了人与人,更强调以“人”为核心的交互过程。由于5G对边缘计算和网络切片能力的提升,未来会有更多设备接入到5G网络,因此AI语音交互将经历从“人”到“人和设备”的核心转变。 随着5G到来,高带宽、低时延、广连接“三大特性”将进一步突破AI语音瓶颈,带来更丰富的应用场景和更完善的解决方案。 1、5G提升语音采样率,打造更接近人声的合成声音 2、5G提升泛在线设备能力,覆盖连接更多设备,延展AI语音交互场景 3、5G丰富AI语音交互形式,向“千人千面”转变 针对5G场景,标贝科技加大业务研发投入力度,推动自有技术产品业务与5G场景紧密结合度。 在5G+融媒体方案中, 5G+AI语音技术将整个“采,编,传”的过程音频化、高清化、云端化,降低媒体内容制作与分发门槛,极大提升效率;5G+数字交互场景,标贝基于5G、人脸识别、图像及语音技术,打造5G场景下虚拟数字员工,超级带宽+完整交互体验,可广泛应用于银行、零售商场、旅游等景点,为客户提供个人化服务;在物联网场景,5G的3大特性,催生万物智联时代到来,而标贝打造声音超市方案,为5G智能设备赋予生命力与情感,400余种声音类型,有温度的声音,提升用户与机器交互的意愿。 随着5G技术不断成熟,语音作为平台通道能力,和5G结合将更加紧密,包括VR、AR、云游戏等场景将是未来重点应用方向。标贝科技以“让人与人,人与设备沟通变得更简单美好”为愿景,将5G、AI、大数据、数字图像、语音交互等技术充分融合,依托腾讯5G生态计划多方位扶持与资源对接,打造面向5G时代的语音交互服务提供。 原文章作者:标贝科技,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    2832 0
  • 亿咖通科技沈子瑜:让智能座舱语音交互更人性化更有温度
    亿咖通科技沈子瑜说由于近几年自动驾驶、人工智能、5G等尖端科技的兴起,汽车行业逐渐在汽车上集成了辅助自动驾驶和智能助手等功能,让驾驶变得更加轻松快捷。亿咖通科技沈子瑜表示,智能座舱的发展,将使人们从枯燥的驾驶操作中解脱出来,使得汽车座舱成为人们驾驶、休息、娱乐、工作的地方。对此,沈子瑜带领的亿咖通科技,作为汽车智能化科技公司,布局智能座舱系统,推出了概念级智能座舱,在吉利车型上落地量产。 亿咖通科技沈子瑜表示智能座舱并不是某一个或某一套零部件总成的名称,也并非是一个固定概念,可以把它理解为随着用户需求变化而不断衍生的产品形态。目前,沈子瑜带领亿咖通科技打造的智能座舱已经在吉利星越L车型上展现,接下来看看星越L智能座舱的具体表现。 沈子瑜说,星越L搭载的吉利银河OS就是亿咖通科技最新的智能座舱整体解决方案。沈子瑜表示,亿咖通科技的这套全新智能座舱解决方案基于伟世通和高通强大的硬件能力和后台技术支持,构建了以移动出行场景为核心的“全场景服务生态”。沈子瑜表示,亿咖通科技为星越L打造的智能座舱系统,创建了语音交互新路径,车主可以通过深度定义语音能力。另外,沈子瑜还表示,亿咖通科技为吉利星越L打造突破性的“主驾极客模式”功能,让智能座舱语音交互变得更人性化更有温度。 据沈子瑜介绍,亿咖通科技打造的吉利银河OS生态矩阵在“说、听、看、玩”等方面的表现都是非常好的。沈子瑜表示,在说方面,亿咖通科技为星越L打造的“主驾极客模式”功能开启后,车主之后每次启动车辆后“驾乘助理”都会自动上线,为主驾提供专属的、永久在线的免唤醒语音交互。此外,沈子瑜还表示,亿咖通科技打造的吉利银河OS系统还拥有车载微信功能,车主可以通过方向盘上的快捷键或语音交互,在安全无虞的前提下实现微信消息的收发和通话,满足用户驾驶途中的微信社交使用场景需求。沈子瑜还表示,亿咖通科技为了满足用户更有趣的出行生活,在听方面,上线了酷我音乐、喜马拉雅和爱趣听等应用;在看方面,上线了抖音、爱奇艺等视频应用;在玩方面,同步上线全民K歌应用。从沈子瑜的介绍中可以看出,亿咖通科技打造的吉利银河OS在“说、听、看、玩”等方面的应用功能是非常全面的,对于用户来说,非常便捷。 从星越L搭载的吉利银河OS系统功能上可以看出,沈子瑜带领亿咖通科技打造的智能座舱进一步提升了用户的智慧出行体验。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    5433 0
  • 在仪表台前方,id.light光语系统可在导航来电语音交互
    随着国内排放政策日趋严苛,消费者对于电动汽车的接受程度正在逐步增高。不过,无论哪款电动汽车,都难以让燃油车的车主在第yi时间适应这种驾驶体验上带来的改变。 这也要说到汽车产业中的精髓——调教功底。具象点来说就是所谓的驾驶“质感”。当你真正驾驶过很多车辆之后,就会对这种感觉有着很明确的感知。而这也是我对于大众ID.3zui为惊叹的一点。 看到ID.3的第yi眼就被这外观设计所吸引,ID.3全车处处充满潮趣个性设计,zui引人注目的莫过于其充满光的元素的外观设计。 IQ. Light矩阵式智能大灯与贯穿式灯带的组合,在动感与潮趣中呈现立体光影轮廓,第yi眼就让人入迷。而整车圆润的造型霎是可爱,细细品味这浓厚的德味,一种好感油然而生。 来到侧面,很难不被车侧C柱表面的节奏感点阵设计所吸引。独特的渐变式光束粒子图案带来充满韵律灵动的美感,飞驰后带来引人入胜的律动感。 zui令人觉得眼前一亮的还属ID.3的20吋轮毂极具辨识度,并且这一轮毂还是一体式设计,在外侧边缘可以选择多种颜色,滚动起来非常具有辨识度。 来到车辆尾部,是否很像大众Golf?的确,Golf那种两厢车的神韵一定要被延续下来,但是也要记住,这是诞生自大众集团纯电MEB平台,完全区分国内油改电和为了营销话术所创造的平台。 得益于MEB平台对内部布局的合理规划,ID.3有这长轴距短前后悬的车身设计,内部地板均为全平设计,轴距达2765mm。并且后排座椅可以放倒,后备箱容积达到385~1267L。 当然,为了符合这一潮流电动车的气质,在色彩上,ID.3有极光绿、赛博黄、超导红、离子灰、晶质白5种车身颜色可供选择。个人还是对这款宣传主打色表示好感,十分符合这一紧凑型车的定位。 ID.3的内饰设计充满了未来感,与方向盘一体的液晶仪表能够很简约的呈现出各种系统内容,简洁明了的内饰风格还一丝“低欲风”。 另外,ID.3提供多款颜色的内饰主题选择。其中更有一亮相便被称为“白富美”的皎月金星皮肤,用瓷白与烁金进行大胆撞色搭配,该背时zui吸睛的便是未来感满满的瓷白色操控套件,并在方向盘、空调出风口处用烁金色撞色搭配,十分精致。 此外,ID.3配备的增强现实抬头显示功能,将行车信息及路况导航信息投射在前挡风玻璃上,并与前方道路视觉融合,提升驾驶趣味性和科幻感,仿佛科幻电影照进现实。 在仪表台前方,ID. Light光语系统可在导航、来电、语音交互、警示等多个场景发出不同颜色的灯光提醒,全面地显示车辆状态和信息,让驾乘者体验声与光的交流带来的便利,操作更直观。而30色感官焕彩氛围灯,让车内灯光随心而变,增强与驾乘者的互动感。 驾驶辅助方面,ID.3搭载的IQ. Drive L2级驾驶辅助,以Travel Assist和ACC自适应巡航系统为子功能,支持方向盘脱手检测及带Stop & Go自动跟车启停,确保行车安全性。不仅如此,ID.3还配备了Front Assist前部安全辅助系统、Lane Assist车道保持系统、Side Assist变道辅助系统、交通标志识别等配置,充分考虑到不同工况下的行车需求,帮助车主更好地驾驭车辆。 究竟什么是高品质驾驶质感,个人理解就是符合人类的生理、心里需求,简单来说就是加速时的循序渐进感,刹车时的安全感,乃至过弯时的信心感。这个感觉很是微妙,这就好比乔布斯所说,科技的魅力就是让你感觉不到科技的存在。如果把汽车当作是一匹温驯的烈马,它不应该让你去适应它的驾驶节奏,应该成为你驾驶中的好帮手。 ID.3在驾驶过程中,电门踏板的动力指令输出非常线性,不会让驾驶者感觉突如其来的加速感;紧急变线时,精准的转向配合上支撑性不错的悬挂,甚至有了一丝运动感。 此外,在试驾体验过程红,令人惊喜的是ID.3的转弯半径仅5m,行驶在市区道路更加灵活。而前后50:50配重,不仅在运动性上能发挥出优异表现,而且可以让动力更有效的传递到车轮,让操控均衡、行驶稳定,保持整车张弛有度的驾驶质感。 在续航方面,ID.3电池容量为57.3kWh,综合工况续航里程(NEDC)达430km。搭配快速充电功能,约40分钟即可从0%充电到80%。 整体试驾体验下来,ID.3这种全球车型的质感是十分值得关注。这种质感不单单是驾驶和静态体验上,也将会呈现在未来车辆耐久性上。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    最后回复 攸爸 2021-12-28 16:12
    5285 0
  • 刘俊峰:智能驾驶时代的人车交互
    科大讯飞1999年成立,至今19年,我们一直坚持产业报国,自主技术创新,引领顶天立地产业发展的路线。我们投入非常多,人工智能、语音技术面向不同行业进行拓展的产品方案,汽车是重要的一环。汽车场景的连接和语音技术的使用场景是得天独厚的非常密切的环境。科大讯飞作为人工智能产业的领导者,一方面构建整个行业第一块语音云技术的开放平台。2010年至今,我们在8年里没有一次宕机。讯飞输入法以及各种手机App的语音接口都是语音平台上调用服务。现在连接在讯飞语音平台的终端数量超过10亿,每天语音交互总次数超过40亿次,正是数据迭代让大家每次打开语音输入法和语音应用时都会感觉到可能会有一点点更好用了。我们是国家语音交互组织者单位,制定产业接口标准。我们在汽车行业有一些手机和其它的智能终端行业,基本上抛了所有嵌入式的平台。 汽车智能化时代。我们在合作的过程感觉不舒服,需要智能化转型过程中的思考和政策以及内部体系流程改变,才能推动智能化流畅运行。硬件迭代,汽车开发,硬件迭代到软件系统迭代,一套流程从每一个主机厂开始没有完全建立。如果采用成本和质量冗余的硬件,面对汽车在8-10年甚至是12年的周期使用要求看,冗余甚至不够,但当前成本会变高。软件不断OTA迭代上线流程里,怎样做好灰度,做好没有完整经过质量认同过程还能够让新技术和新产品、新服务、新功能上线,怎么设计好整合系统的后台,兼顾安全性同时连接更多服务,能够让这样的平台不被淘汰,或者是尽量晚被淘汰,这都是需要思考的过程。讯飞聚焦在这一领域,我们做两件事情,做好车内的人机交互,语音为核心。我相信当前阶段,大家不会否认一个汽车智能化的设计过程语音是重要的。我们关注人在车内的活动。汽车自动驾驶的状态释放连续的人在车内的自由时间,怎么让人在车内有比较舒服及安全高效的交互过程。一方面关注汽车理解环境,让汽车本体有更多传感和感知能力,有自动驾驶更强的能力。同时,我们要理解人在车内的活动,我们其实垂直是关注理解人的这条线。我们不对现在人工智能的核心技术乐观,也不对未来的人工智能过度悲观。技术的迭代是需要周期的,利用数据模型和专家系统不断优化。数据闭环,我们倡导真正有数据相关性的大数据,能够结合汽车场景为用户提供实时有效的更多功能服务。产业配合。刚才讲到的问题,不管从产业政策还是主机厂内部的开发流程,还是验证上线的每个功能及服务,有很多没有解决的问题。我们关注交互有几个需要把握的点,这种交互是人在车内使用,必须为人的安全有所加强或者有所保证,用一句话解决,一秒钟解决的不要多花任何一点点多余的精力。如果按照现今的思考一句话可以说几十个字,其实不是理想的环境,因为会牵扯到人在车内驾驶过程中更多的思考,整理语言要配置很多前置后端的条件。有的是一句话可以搞定的,我们一直在引领,汽车在语音交互方面的进展。从原来自然语言到唤醒词,现在可以带着场景自然语言的表达你的想法,过程是为了减少人在车内多思考浪费的时间,利用唤醒多轮的确定带来多轮的交互影响安全的问题,一定要简单。智能表现在两方面,一方面理解我的口音,理解我更多从话里表达出多维的意思。再有可能是主动的,因为它对我了解,可以主动的问我是否需要这个,是否要干什么。一定要安全,唤醒,识别物操作,合成的不对都会给客户在车里带出一秒钟的影响,高速上等于50米。人性化,不同的性格,不同的性别,不同的年龄都应该有更加合适的一套语言体系表达情感。现在更多的思考可能是长的是不是漂亮,这样的架构是不是满足快速交付的需求,但这恰恰对未来千人千面的汽车来说有一些相悖。因为不同的车,不同的用户,不同的性格再加上不同的时间,都需要不一样的使用体验,包括界面是不是需要这么强制的定制(定义)。有可能一个月以后就是OTA到自己的风格,而前期投入更多的是那些固定的东西,我认为这些都是浪费时间。我们给汽车行业基本提供了全链的语音交互核心技术,这么多核心技术每点都应该至少是黄灯。如果在整个链条里唤醒不好用,识别不好用,合成不动听,你的语义很罗嗦,每点出现红灯那语音体系一定不好用。我们内部思考讨论很多,大家在买好水果的时候,人家会送你一个盒子或者一把刀,刀和盒子解决方便性问题。但刀与盒子一定不会成为家里的主要设施,舍不得扔只是放在家里救急,最终结果肯定还是会被扔掉。我们家里可能会用双立人的刀或者张小泉的刀,因为它品质好,而不是因为免费。能够真正聚焦做出好东西,能够在车上保证好用,可用,越用越方便灵活越有人性,越智能,这条路聚焦走下去永远不会错。每一台车都需要一套好用的语音交互系统,都需要人性化的人机交互系统。路上有太多事情值得做。 大家体验过未来的ES8能够感觉到,我在开窗户的时候,不同位置说出我要开窗户是不一样的窗户打开,车内会有更多麦克风,也会有更多声音细分性,结合麦克风的阵列技术在车内有更加丰富的设计空间。如果每个座位都有人,怎么满足差异化的对内容的调用需求。播报怎么办。我们针对未来智能汽车的更多使用场景,把声音领域做细,一定会有很多人认同。前段时间屏幕越来越多,车越来越贵,最贵的音响只有10%的厂商使用,下面的90%很多没有品牌。但很多功放有巨额的利润,被国外厂商用品牌溢价带走。我们在声音、品质和功放垂直投入,声音进到声音出形成完整闭环,用这样的技术让车内的交互真正做到因人而异,更加丰富。未来在十万之内,甚至是五万之内达到有不错的听感,甚至20万的车可以有100万车声音的品质。这个问题软件技术可以解决一部分,更加丰富的语音和声音交互可以解决一部分。我们做汽车视觉,让车上的声音和视觉打麻花,让车内交互变的更加丰富。通过语音控制选择可以看到车位,也可以提醒乘客看到后面是桩子还是孩子。用视觉和声音结合的交互场景,可能会在未来每个车上都需要。怎么构建系统在硬件不整理不更换的时候形长大期价值?云架构的操作系统,是我们明年要主力推出的系统架构。关于硬件的匹配,我们跟很多的硬件供应商和芯片厂商对接,希望用我们对技术的理解,帮助大家更快地从独立的服务应用过程变成可以能够打包提前适应集中表现。车厂减少集成化的时间。 利用机器理解,知识图谱和图像理解的技术,扫完五本书,每个车的五本书都藏了很多要向用户表达的内容。但这些书往往对读者而言是非常生涩的,利用机器的语言变成人性化的语言,让车和人就知识体系可以形成更好的连接。发现问题时,可以更快的引入后端服务体系。智能客服是讯飞十几年在电信运营商行业里深度积累的系统,用它替代很多对外呼出,做质检、保险和维修提醒的工作。随时上线新业务,我们提供一套开放语义编辑工具。如果有新业务想上线的时候,可以后台编辑马上上线验证。我们是2B的企业,我们为了汽车行业,尤其是自主品牌合作的企业,涵盖所有国内自主品牌的车企,我们希望基于对中文交互的理解,对中文语义和中国汽车市场的了解,能够为一个个战略合作伙伴提供更好用的系统。 我们做车机的软件系统,为了更好的理解交互,为了更深的做好服务,我们在推进软硬分离的路。我们希望利用对硬件和车身的控制,以及对服务的接入,结合着人机交互做出更多差异化的好东西。下礼拜合肥1024主论坛后开汽车生态开发者联盟的启动仪式,召集行业对汽车服务有价值的生态合作伙伴,以及硬件和系统的合作伙伴。希望打磨出一套可以长期被车厂和用户都认可的好产品。 谢谢大家。

    原文章作者:E电园,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    最后回复 牌揍 2021-12-28 15:14
    1225 0
  • 智能语音行业应用的机会,看这篇近万字文就解了
    智东西创课前言 这是智东西创课第24期课程实录,分为主讲+问答二部分。主讲嘉宾是王砚峰,搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人。读完近万字全文,你可以掌握到: -智能语音的定义以及市场有多大? -智能语音在车内,客厅内,以及可穿戴三个场景会快速规模化应用,但如何做呢? -智能语音的行业应用的爆发取决于哪三个因素? -为何语音交互没有在智能手机上快速普及? -为什么聊天机器人不停地被大家遗弃? -如何看待亚马逊echo、google home的切入点以及前景呢? -Mor、三角兽等自然语义处理引擎初创公司的前景几何? -基于语音识别的智能客服产品如何市场化? -三五年后语音识别市场会形成什么格局? -搜狗在智能语音行业应用成功案例。 主讲环节实录 大家好,我08年进入互联网行业,之前在搜狗负责输入法后端的研发,然后又支持了多个搜狗号码通,手机助手,浏览器等用户产品,所以我是一个彻头彻尾的互联网从业者,今天会站在互联网公司的角度谈谈我的观点。从2012年开始,搜狗开始做自己的语音识别引擎。智能语音这两年成为了一个热点产业,吸引了国内外广大公司以及投资者的关注。同时这方面吸引眼球的新产品层出不穷,巨头们也在不停地布局。因此今天我不讲具体的技术或者产品,而是站在产业以及市场的角度给大家做一些不成体系的分享。为了具有一些针对性,我拜托智东西的同事们收集了一些大家普遍关注的问题,针对这些问题做一些具体的解读,把我个人包括搜狗公司的观点带进去。希望大家可以从我的片言只句中,看到我们背后的思考以及逻辑,甚至是技术观产品观和价值观,给大家带来一点点的启发。 所谓智能语音其实就是给语音加了大脑,能够理解用户通过语音表达出来的意图和需求,并且可以把对应的内容返回给用户。所以已经不仅仅是语音本身的范畴了,而是结合了自然语音理解,搜索等多种技术,最后通过语音的形式表达出来。一个典型的例子就是siri的语音助手。在这里面强调的是一种自然交互的方式,越自然越智能。在siri之前也会有一些语音交互的研究以及产品,但是都是单纯的基于命令菜单式的,这都不能算是智能语音。 语音市场的规模,引用一下工信部以及语音产业联盟的数据。自己没有做过太多细节的考证,贴出来给大家参考一下。根据中国工业和信息化部电子科技信息情报研究所数据显示,2013年,全球智能语音产业规模整体达33.7亿美元,同比增长38.1%;2014年较2013年同比增长41.0%;2015年较2014年同比增长35.7%。预计2016年语音产业规模可达82.3亿美元以上,到2017年,全球智能语音产业规模将达112.4亿美元,复合年均增长率达35.1%。 智能语音作为入口这件事情实际上已经发生了,比如在目前车内的后装导航,出货有很大一部分比例都是智能导航,通过语音来进行交互。尽管用户体验以及效果还存在一些问题,但是已经具有一定的可用程度了。 但是什么时候能爆发,还是要取决于: 第一,车联网以及智能家居等产业的进一步成熟,能给用户带来真正的价值,让用户在这些产品上产生切实的消费,而不是玩一下就扔。这样产业和产品的需求就会进一步倒逼技术的进步。 第二,语音的鲁棒性的问题需要进一步的解决,比如远场,噪声,多说话人等问题。当然这个过程是一个渐进式的。 第三,自然语言的理解能力也要有更大的提升,机器更加懂得用户的意图,才能给用户带来更加稳定的体验,产品才真正的可用。 所以爆发不仅仅简单是技术层面的事情,而是从产品设计到技术能力,都要比现在有一个更好的提升。 语音交互目前在手机端比起文字交互来讲,确实算不上普及。比如目前每天会使用语音输入的用户占到8-10%左右,这仅仅是UV比例,如果是PV比例那就更低。另外从前阵子老罗在锤子发布会上给讯飞做了一把宣传以后,当时讯飞语音输入着实火了一阵,这也说一般用户对于语音功能的认知是远远不够的。惊奇于当前语音输入能有这么流畅的效果,说明大家的印象还是停留在久远的过去。那手机上目前认知度和普及程度还不够的原因主要都有什么呢? 从技术上讲,语音在开放场景下还不够准。比如方言的问题,噪声的问题,尤其是其他说话人带来的噪声目前依旧是致命的。所以语音对于用户来讲,识别结果不是完全可以预期。一旦错了修改的成本还是很高的,所以很多用户宁可打字。因为文字输入的结果是稳定的可预期的,这种可预期本身就会带给用户安全感。因此绝大部分用户是为稳定而买单,只有一部分用户会为酷炫和高效买单。但是大家也看到这个趋势,就是用户在手机上使用语音的比例在不断提升,这也是技术不断提升的一个结果。当然从另外一个角度,当前手机上的语音主要还是聚焦在输入法,以及语音搜索上。设想一下用户在搜索场景下,如果他这个时候方便打字,只需要在地图APP上打一个地名,效率本身也并不定(地图APP往往都有suggestion的能力),这样用户也不会冒着语音错误的风险去用语音的输入。换言之就是大部分用户的输入量都不够大,键盘也已经用的很纯熟,搜狗输入法的键盘还具有智能纠错功能,这就使得大部分用户对于输入效率的痛点不够,也没有进一步的动力去冒风险尝试更有效率的输入方式。实际上从当前用户反馈中,愿意使用语音的用户,尤其是重度用户,都是以文字工作者为主,包括我们的记者朋友们。他们就是愿意为了效率去冒一些不确定性的风险,但是从效率上的收益是巨大的,足够形成动力的。因此最终目前手机上语音输入的场景分成两类:一种是用户当前确实不方便打字,会选择使用语音。另一方面我们看到年轻人会更加喜欢用语音的方式进行输入,觉得这种行为更具有style,更好玩儿。重度文字工作者在所有用户中更是只占一小部分比例。 哪些语音交互场景最具增长潜力,以及能快速规模化应用?三个有价值的场景,目前大家已经很有共识了。那就是车内,客厅内,以及可穿戴。引用一下今年互联网女皇在她报告中提到的,美国同学们使用语音的主要原因和场景: 不过这几个场景爆发的顺序有先后。我认为是先是车,然后是智能家居,然后是可穿戴。车的场景最明确,需求也最明确,产品定位也最明确,所以语音的目标也最明确,从产业步伐上来看,目前车内导航语音普及率也是最高的。智能家居目前围绕电视和音响,具体的需求就是搜片和听歌(以及FM等),加上echo的带动,这方面的需求也比较明确。但是目前有些过热,比如一个以听歌为主要产品场景的音箱,已经被大家定位成了未来家庭智能的入口。可目前产品本身做得不够好,所以其实用户消费还是比较惨淡。不过长期的价值我是看好的,只要大家产品观正确,先打造一个好产品,再考虑入口的事情,最终还是能够有一个更高的普及率。可穿戴我认为是最晚的,因为市场上产品还没有成为刚需,比如智能手表,给用户带来的价值,其实是远小于我们内心中的预期的。语音的价值更不可能在产品就产生价值之前呈现出来。 说下聊天机器人。因为我们的谈的是“智能语音”。智能这个概念,最好的体现就是让设备像人一样具有感情,越具有感情越觉得智能。也是因为这个认知,把大家导向到了这样一条不归路上。瓶颈目前其实很明显,那就是技术问题目前导致机器本质上来讲没法达到人的地步,一个心智上没有问题的成年人,一定不会长期使用的,可能就是最开始用着新鲜体验一下。给一张我在外面常用的图来解释一下: 这是我认为一个好产品所具备的最基本要素。我们回到机器人这个产品上。当前的聊天机器人只是解决的产品金字塔最顶层的“有趣”的要素,但是更底层的“刚需”以及中间层的“稳定”都远远不足。这也是为什么聊天机器人不停地被大家遗弃的原因。为了不被人遗弃,我们的小冰MM只好每两周都升级一个新技能,让大家持续保持新鲜感。否则很容易7日之痒。 但是从产品价值本身来讲,其实小冰还是没有给用户带来真正的价值的。所以如果不继续升级来刺激大家,很容易就被抛弃。聊天机器人未来的突破口可以放在儿童方面,因为儿童的心智本身就是非理性以及跳跃的,并且重复的东西儿童也会喜欢,所以儿童是可以持续和机器人去玩儿。能结合聊天机器人做一个好的玩具,那对于儿童来讲还是具有不错的用户价值。 该如何看待亚马逊echo、google home的切入点以及前景呢?把语音智能硬件作为一切服务的入口,是大公司的一种面向未来的选择。因为对于谷歌和亚马逊这样的巨头,只是定位成一个音箱产品,那确实太小,也没有太多战略价值。但是从今年亚马逊echo的销量来讲,目前得到的信息是已经要卖不动了。而且这样酷的产品,在美国市场只是卖了几百万的量,还是不够大。Google home的销量更是不用提。原因其实也很简单,就是我之前反复强调的,产品价值没有那么大。而且当前从产品到产业都不够成熟,用户在上面很难形成具有商业价值的消费闭环,所以入口这个事情是现在根本做不到的。但是未来这种形态一定是有价值的,区别只是放在音箱或者电视或者手机上的差别。但是这条路会很长,需要长期坚持下去。对于巨头和大公司我觉得是可以这样做的。 最后谈谈搜狗在智能语音的应用上的布局。搜狗的主要产品是输入法+搜索引擎。面向未来的人工智能而言,搜狗的核心战略就是:自然交互+知识计算。自然交互完成人和机器之间的环节,知识计算完成机器和信息之间的环节。其中智能语音其实就是这一技术路线的入口,主要完成的是自然交互的部分。所以可以看到,智能语音是搜狗当前发展战略上的核心能力之一。所以一方面我们会不断地投入更大的研发力量,让我们在语音交互方面的能力具有技术上的制高点,另一方面我们也看重能力的在产品中的使用和落地,让我们的技术尽可能的给用户带来更多的价值。目前在用户产品上,我们的语音输入每天用户使用次数已经到达了1.8个亿,是互联网上最大的语音输入产品(当然这一点得益于搜狗输入法在移动互联网上的垄断的市场份额)。语音搜索目前也是仅次于百度处于第二的位置。同时在今年7月份我们发布了“知音语音引擎”,旨在和产业界中优秀的的产品和合作伙伴共同打造更好的语音交互产品。在车载方面我们和自己的地图合作,推出了车机版全语音交互的导航;同时我们和四维图新强强联合,能力互补,一起把我们的语音方案推到车载设备中,这一方案已经在一些顶级导航设备厂商(比如飞歌)的产品中上线。客厅场景中,我们已经跟魅族合作并在其盒子产品中上线了语音搜索功能,在谈的还有一些优秀的电视以及互联网硬件产品公司,由于产品还没有发布出来我暂时这里不提名字,大家应该可以在年内以及明年初看到我们与其他巨头公司更多的合作产品出来。 问答环节实录 提问1 陈楷煌 广东工业大学 工业设计专业 想问下现在语言交互方面,AI对于对话环境的识别做到了什么程度? 比如当我们晚上睡觉前和它对话时,它会不会就温柔一点,声音轻一点?而在开家庭聚会时它会不会就欢快一些,声音大一些(如果聚会时环境比较嘈杂)? 王砚峰:目前的产品设计这块普遍是没有包含这个逻辑的。就像我之前说的,其实当前这方面的产品还没有解决好实用性的问题,因此更高层次的人性化更是无从谈起。 另外,机器能知道的信息主要是环境是否安静,以及时间。但是光有这两个维度的信息是不足以判断周围环境适合用什么音高的。人是怎么判断的呢,可能是靠眼睛看周围的环境,也可能是靠对方一个动作“嘘”。 机器的视觉和感知能力还远远达不到这个水平。所以即使做出来,也是很生硬的规则,你会发现放到真实环境中效果也会很一般。 提问2 徐凯 百度云计算事业部 高级产品经理 想了解一下基于语音识别的智能客服产品是否可以市场化? 王砚峰:完全可以市场化。从需求来讲,目前客服是各大产品的必备功能,而且每个大公司都投入很大的人力物力和坐席成本。所以各个公司确实也都在积极向语音服务商寻求这方面的好的解决方案。 从技术上来讲,因为客服的问题都是聚焦在产品或者某一个垂直领域的,而不是一个通用机器人,所以目前自然语言理解能力,辅以整理的较好的知识库,是可以能够对较高比例的用户问题提供答案的,剩下解决不了的再通过人工的方式来close掉。 提问3 李祺 先锋车联网 技术leader 语音语义识别如何利用到智能汽车的场景中? 王砚峰:最直观的就是车内的智能导航,以及一些周围查询和用车问题。目前不管是主机厂还是后装设备厂商,大家都在不遗余力的往这个方向去奔。因为你在车内双手和双眼就是被占用的,当你有临时性需求的时候,语音是一种最好的满足方式。 当然,从产业端来讲,大家希望最后在车内实现服务化,做好整个“车联网”,希望语音最终能够和服务结合起来,把商业上的闭环跑通。但是目前不管是语音交互的能力,还是服务落地能力,距离最终目标尚有差距。举例子就是用户很难通过车内的语音交互去定附近的酒店,这个需求既不高频,同时解决方案也不如直接把车停下来查携程好。 所以我们会更务实一些,第一个目标是在导航,以及用户在路上产生的常见问题比如顺便加油、听FM,回微信消息等做到良好稳定的用户体验,把这方面的用户价值做起来,然后再去考虑服务延伸的事情。 提问4 毛杨 华为 业务规划 良好的智能语音体验,对网络是否有要求? 王砚峰:当然对网络有要求。除非像导航这种特殊的需求。其实导航上对于离线语音的需求,也是因为存量市场很多导航都是离线的,以及一些偏远公路网络信号差,所以不得不使用离线的语音。但是从识别的品质来看,在线的识别能力一定会比离线的强很多,计算力的差距摆在那里。更好的识别能力,就能够带来更好的语义理解以及内容返回。而且所谓智能语音,绝大部分后面要接一个搜索,可能是垂直的搜索,也可能是通用搜索。如果没有网络,搜索和服务的能力也不能接入,那又何谈智能。 提问5 王楠 中科创达 战略投资经理 搜狗目前在智能语音领域,是否有比较成功的行业应用可以分享,比如语言教育、汽车、智能设备等。谢谢。 王砚峰:搜狗是互联网公司,因此目前太重的行业(内容上的重或者商务上的重)我们还没有涉足,比如教育。但是只要是面向用户消费类的产品,哪怕最一开始模式是2B的,我们也会涉足,因为实际上这是一个B2B2C的模式,最终使用你能力的还是互联网用户本身。比如车内导航以及智能电视等。 至于成功的行业应用,如果是以用户量为判断标准,至少我们当前还不敢这么讲。我们目前暂时不以铺量作为业务目标,而是希望能够找每个领域的少数优秀的合作伙伴,共同去做出体验更好的产品。先解决目前市场上问题最大的“产品体验”的环节,然后再考虑如何去复制。既然这个市场大家用户体验都不好,而且大家都对好的用户体验的产品很敏感,所以只看量不看体验完全是本末倒置,到时候抢来的量也会流失掉。 所以目前在车上,我们和四维联合做了飞歌导航的一款产品,后面也会有几款后视镜以及车机导航产品面世;在智能电视方面,我们和魅族联合在魅族盒子上做了语音交互和搜片,另外也有几家好的合作伙伴处于产品即将上线状态。 然后我们的重点会放在通过对用户消费数据的迭代,不停地提升我们语音和语义能力,让产品的体验更好。当我们的产品体验能够形成行业口碑的时候,快速的铺量自然不会是问题。当然,作为新加入智能语音行业2B市场的我们来说,能有各行业巨头优秀合作伙伴进行深度紧密的合作,赢得这些我们尊敬的公司的认可,已经是一种“成功”。[愉快] 当然我们要走的路还很长,用户在语音产品上的体验还太差,所以我们和伙伴们一起推动产品的进步。 提问6 安迪 深圳新驱动力有限公司 项目工程师 科大讯飞的语音输入宣称准确率达97%,应用到智能机器人等设备,需要怎么做,才能达到理想的智能对话? 王砚峰:首先解释一下97%的问题。搜狗对外也宣称97%,这个数字实际上是人工评测得到的数据,确实我们和讯飞都是在97%这个数字上面。但是放到更真实复杂的环境,比如远场、方言、多个说话人等问题,准确率就会打折扣。所以语音识别的鲁棒性问题,还是一个从技术上需要进一步长期投入需要持续解决的一个问题。 你拿一个语音输入法,用非常自然的方式和他说话,或者在一个很嘈杂的环境中,一定是达不到97%的。所以要达到理想的对话,一方面像我之前提到的技术制高点,是需要不断去努力让技术更加得到本质性的改进的。这个技术包括语音增强、阵列以及说话人分离等多个领域,目前确实也是研究界的大热,以及工业界新的增长点。另一方面,可能要从产品设计上进行优化,在承认语音识别有错误的情况下,怎么能够通过进一步的交互来让语音识别变得更准。比如搜狗在今年上半年推出的语音修改功能。实际上这个功能对于车内、音箱上甚至“机器人”都是非常实用的。 提问7 张青涛 大疆创新 工程师 智能语音处理对硬件平台有什么要求?例如延迟、精度、实时性。 王砚峰:这几个指标其实最终统一到一个描述,就是“计算力”。在当前深度学习的背景下,网络结构的复杂和参数的增加带来的就是精度的提升和实时性的下降。想要解决这个问题,只能是计算能力更强的硬件。 具体而言就是CPU已经不够了,你要用高性能GPU或者FPGA作为线上服务器的计算模块。而如果是离线端,想要保证达到和在线接近的效果,也只能是利用嵌入式GPU以及FPGA的方式去做。这方面随着模型复杂度的提升,专用芯片可能是个趋势。比如在线服务下并发量很高的情况下,可以用并行化的算法跑在GPU上面。但是离线端都是本地处理,谈不上高并发,所以可能FPGA就会更经济更合适。当然,具体情况具体讨论了,没有一个完全统一的准则。 提问8 黄力 博汇科技 BD 目前哪种框架开发的算法,在语音识别上实时性最好?比如Tensorfollow或Caffe 等,哪个更适合语音实时性的算法开发? 王砚峰:目前开源软件普遍重训练,这部分对实时性要求不高,实时性更多体现在解码或者inference上,这部分想实用化还需深度优化,而且解码的过程也一定要结合识别本身的任务还有计算平台来深度定制,实时性(时间复杂度)和模型复杂度要做综合考虑,目前我们团队快速训练小规模数据时会考虑tensorflow,inference阶段我们是自己开发的解码器,但是tensorflow的inference在跨平台上的工作还是很不错,适合快速验证能力模型。但是一旦到了训练几万小时的线上模型的时候,并行训练平台也都是我们自己的,也并不采用tensorflow。 提问9 韩云飞 e道伴侣 语音交互设计师 1、抛开语音技术程度,语音目前的智能程度大概在几岁,在国内未来会有哪些行业 2、我觉得语音是趋势,但也只局限在某些行业,哪些行业将受益,我们这些技术、交互能坐在哪个位置? 王砚峰:我想你提的问题是抛开语音识别准确程度,如果只看文本,智能程度大概在几岁。负责任的回答,这个没有可比性。你问一个十岁的小孩知不知道天为什么是蓝色的,可能他完全不知道。但是对于一个一岁的小孩儿,你教他衣服上的一个商标,他以后看到的衣服或者鞋子上的商标他都可以指出来,但是机器不行。所以机器智能和人工智能,一个是靠大数据去堆,一个是靠抽象和推理能力,是根本不同的两条路。 至于行业问题,我在之前的分享中已经多次提到了。车载、智能家居和可穿戴。坐在什么位置,取决于你在产品中带来的价值。比如对于车载导航,那就是非常关键的位置,是入口,在你手和眼睛被占用的时候,就是你的唯一解决方案。但如果是抽油烟机,语音只负责控制开启和停止,那价值就很小,我随便一抬手就可以替代掉,而且我既不会在客厅里面喊抽油烟机让它开关,也不会无聊到让抽油烟机跟我唱歌或者说话。所以本质上抽油烟机是不需要对话上的智能性的,所以语音在其中的价值最大程度上也只能是噱头,只能利用市场的不理性时机打一个时间差。 提问10 于小利 缤特力 声学工程师 相对于其他语音服务,搜狗语音服务有哪些优势和劣势? 王砚峰:搜狗语音服务的优势主要有三个: 第一借助于搜狗输入法垄断的市场地位,我们每天能收集到的用户真实语音数据有十几万小时,里面包含了各种用户真实场景下的噪音,口音等,这帮助我们极大的优化了我们的鲁棒性,因此我们的语音在真实环境下表现非常出色; 第二我们背后有搜索服务的支持,这也是早年间我们为什么能快速推出语音助手的原因。我们拥有各个垂直搜索以及对应的知识图谱,这对我们语义理解和对话的帮助极大。 第三我们有丰富的产品经验,会想办法通过产品设计,对话的设计来提升语音交互的体验,就像之前给大家看到的语音修改。这里我再举一个智能导航的例子,如果我们更清楚的了解用户在导航时候的习惯以及问路的方式,就有机会让导航的交互体验更好。 大家可以看到,“我要去紫竹桥那个”这样的描述方式,是当前市面上任何语音导航方案都不具备的。这也得益于数据层面的打通,以及用户行为更好的产品理解。 提问11 于乾隆 爱尔眼科 知识管理经理 智能语音是否可以成熟到可用于电话客服?如果不够成熟主要有哪些待突破的障碍? 王砚峰:目前已经有一些应用,但是还是不够成熟,只是刚刚开始。一方面语音识别的效果需要更准,电话信道语音质量较差,另外用户说话的方式会更加随意,而不是像对着机器这样去讲,因此识别的效果都会打折扣。另一方面用户的复杂查询理解上机器还做不到,机器可以做到的就是来一个知识库中能够匹配的用户问题,然后给答案。但是替代人工客服解决用户多轮来回复杂交谈的问题,还处于非常弱的阶段,这块需要智能对话技术的进一步突破。 提问12 杨晰 乐视网智能生活事业部 产品经理 1、老师你好,我是做智能家居平台的产品,有两个问题想听听您的看法,目前市场普通家电转型智能家电,目标应该落在大众普及还是高端极客更得以教育推广? 2、语音交互是否像界面交互一样,需要傻瓜式引导? 3、当事实语音交互时,除了数据通讯加密,信息安全是否也需要杀毒? 王砚峰:任何新的产品,都是先有一些喜欢接受新事物的用户来体验。这部分的用户的容忍度比较高,可以忍受产品的不完善。如果你的产品体验最终不能满足大众傻瓜的需求,那也只能停留在极客层面。但如果产品体验足够流畅到大众能接受的时候,那么就会普及。我觉得普及是我们的价值追求。当然如果想追求情怀,那是个人选择问题。但是把技术带给更多的大众使用,提升大家生活品质,我觉得才是最有价值的。 语音交互界面设计一直有一个术语叫 VUI,就是讲述怎么来设计语音交互的界面,这是一门科学。有兴趣的的话可以在网上搜一下看看,病毒方面,我觉得目前是不需要的考虑的。因为病毒能够流行起来因为PC和手机都是应用程序的平台,病毒的存在方式exe和app,病毒就是程序。当前语音分发的是内容,不是程序。所以暂时不需要为这些问题担心 提问13 刘雄 中金 研究员 现在科大讯飞在中文语音识别领域具有很突出的技术优势。同时,我们看到,国内外的互联网巨头和创业公司都在技术上加大力度研发,有不错的成绩,您怎么看三五年后语音识别市场的格局? 王砚峰:语音识别市场的格局,我没法给出一个很确切的结论。但是有一点很明确的,那就是一项技术,如果要在市场和商业上产生价值,要么就是技术被垄断,要么就是你的技术比其他家有一个质的差距。 但实际上目前不管是科大讯飞还是其他大的互联网公司,大家的技术基本没什么质的差别,所以你很难从单纯的技术上建立成熟可靠的商业模式。所以要么你就往上游去走,和搜索引擎结合起来,语音和内容服务结合起来,要么你就往下游走,和硬件产品结合起来。如果只看语音技术本身,那是不足以产生竞争力的。在未来和互联网巨头的竞争中也会很被动。 当然纯粹的2B生意,比如教育医疗等行业的应用,需要和行业进行高度定制,这个是互联网公司不愿意轻易迈入的,所以单纯的语音服务在这些行业还是有长久的价值。但是一旦到了B2B2C模式下,就很难讲。 讯飞是我们非常尊敬的技术创新的公司,这里也没有任何观点的偏向性在里面,只是从技术普遍发展规律下的一个看法。 提问14 陈彩可 乐视车联网 产品经理 请帮问一下王总,如何看待自然语义处理引擎创业公司比如Mor、三角兽,以及搜狗引擎和他们是否有合作。 王砚峰:搜狗和这些公司没有合作。目前自然语言处理引擎创业公司有两条路,一条路是做助手、做机器人的2C产品,但是我认为这方面不管是技术,还是产品和产业本身都不成熟,不适合创业公司来做。 另一条路是帮助其他公司提供能力,做一些2B的服务。这个能从阶段上弥补产业界各个环节上的薄弱,就像最早很多互联网公司也会使用语音公司的引擎一样。但是长久来看,从趋势上来讲,越大越成功的产品,越能给这些2B公司带来价值的产品,都越有走向平台性通用性的倾向,一旦定位成了平台,那就离不开搜索的资源支持了。 当然搜狗是站在一个开放的心态上欢迎各方面的合作的,但是语义能力其实也是搜索引擎未来发展的核心能力,既存在于自然交互,也存在于知识计算,所以这方面的能力也是搜狗必须去做好的。当然因为有搜索的存在,我们忽悠一个更好的基础。 原文章作者:智东西,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    1123 0
  • 从17亿到30亿 前装车载语音正在变成刚需
    从车联网到智能座舱,智能汽车技术正在快速发展,作为智能的体现,使用语音操控是最便捷的交互方式。据国务院发布的《新能源汽车产业发展规划(2021-2025)》,预计2025年新能源汽车销量将达到1700万辆,市场渗透率达到20%。具体到车载语音市场,据公开数据统计,2020年中国前装车载语音市场(包含软硬件)规模约为17亿元人民币,到2025年,市场规模将增长至30亿元人民币。 2019-2025年中国汽车智能语音前装市场规模预测|ICVTank 如何让驾驶员爱上车载语音? 相比按键或是触控方案,车载语音对于车辆控制,既能避免驾驶员分心,又能提升驾驶员的驾驶体验。同时,车载语音作为连接车联网的入口,就如同当年的智能音箱一样,受到了众多企业的关注。但与智能音箱相比,由于车辆的使用环境、用户群体的不同,对语音系统提出了更严苛的要求。 一个很突出的问题是,据笔者询问过几位新能源智能汽车车主表示,在体验过几次车载语音后,便表示不会再用这一功能。究其原因,主要在于用户体验不佳,反应迟钝,无法正确理解车主的需求等。 为此,电子发烧友带着这些疑惑采访到了清微智能CEO王博,他认为问题主要出在用户体验上。首先是习惯性问题,通过语音来控制并非是许多驾驶者的第一反应;第二则是技术问题,一个指令发出去,两三秒之后才反应,很难说是一个很好的体验,而且在目前的网络环境下,一些特殊场景中,可能无法联网进行使用;除此之外的网络传输信息泄密等安全问题也需要考虑。 声扬科技合伙人及产品VP谢基有对电子发烧友记者表示,从技术角度来看,想要让车载语音拥有一个好的用户体验,需要在几个方面上改进,一个是在车内环境中如何精准获取用户的声音,但车内环境复杂,存在车噪、风噪等噪音,以及各种声波反射后的混响,想要获得精准人声比较困难;另一个则是语音的识别率,当车载语音多次无法准确识别驾驶员的语音指令时,自然就不会再用了。 语音识别原理图 针对这些问题,声扬科技也联合了ADI进行相关合作,在其芯片上集成同声分离的算法,能够在两个人同时说话时,将各自的声音区分开来进行识别。 当两人以上同时说话时,单点的音节无法分辨,因为这两个声音在物理形态上处于叠加,声波叠加后可能变成第三种声音。汽车环境中,可以采用多麦克风阵列的方式将声音进行收集。再进行同声分离,分离出不同音区的声音,后续再用算法进行降噪和去混响。 而在降噪方面,尤其是在车窗开启时,噪声极大。许多汽车在车内的吸音并不一定做的很好,这种情况下车内的噪声,对于语音识别带来极大挑战。声扬科技在这些方面都有较为丰富的技术积累,同时也与ADI等企业合作进行技术攻关。 至于语义的理解,目前而言已经发展较为成熟。只要前端做的足够好,对于后端而言压力会减轻许多。声扬科技在车内场景针对数字的识别准确率可以达到99%以上,对于非固定内容的识别率也保持在90%以上。 当车载语音能够切实帮助驾驶员解决实际问题,精准接收并执行驾驶员的指令,减少注意力的分散,提升驾驶体验,这样才能得到真正广泛的应用。而在目前,车载语音仍处于较为初级的阶段,许多功能正在快速迭代,这也推动着车载语音渗透率的进一步增长。 离线语音算法仅KB级对厂商提出高要求 据水木清华研究中心数据显示,2019年,中国乘用车车载语音装配率为48.8%;2020年1-9月,装配率已经提升至64.8%。从市场竞争格局来看,据中泰证券数据显示,2020年1-4月,科大讯飞和Cerence占据83%份额,百度、思必驰、傲硕、阿里云等企业紧随其后。 2020年1-4月国内语音识别供应商装机量统计|中泰证券 在进行语音识别的过程中,车辆可能需要处于联网状态当中,这就对车路协同、大数据、移动网络有一定的要求,而在车内的应用场景中,用户使用车载语音希望能够得到即时的反馈,如调整座椅、控制空调等,这些简单且固定的命令可以交由本地去做。 王博认为,目前阶段,车载语音主要用来人对车的一些简单的操作,语义相对简单和有限,离线的方案还是比较适合的。另外,随着算法的演进和优化,以前在云端的模型,现在完全可以放在车机端使用。只要让车机具备更新语音模型的能力,就能让离线方案也获得不错的用户体验。 清微智能的车载离线语音模块无需联网,减少了网络通信的延迟,可打造真正的“无缝”连接,让系统快速响应;同时针对驾车环境,清微方案配备车噪降噪算法;另外,可重构计算技术带来的芯片灵活性可方便集成客户自有算法,提升驾驶者的使用体验。 目前而言,由于通信基础设施还未完全覆盖所有应用场景,如地下停车场中,由于信号较差,导致联网功能在一定程度上无法使用,造成用户体验下降。为此,声扬科技也提供了相应的离线解决方案,在使用声纹识别时,可以通过离线方式来判断驾驶员的身份。 谢基有表示,未来可能随着5G的发展,对于信号覆盖会有一定提升,使用云端服务会更加便捷,但并非所有场景都能够被信号覆盖。一个很显著的例子是,尽管4G网络发展多年,但在许多地点,如地下停车场时,信号依旧非常差,因此离线在某些场景中依旧是必须的。 此外,离线方案需要在CPU中运行,单靠MCU无法承载。即便是CPU,也需要进行深度的优化及定制,还需要考虑到一些芯片无法进行浮点运算,则需要再做浮点程序定点化操作。但这些芯片中所预留的RAM仅有KB级,如声扬科技在ADI的DSP芯片上运行整个算法,仅用了150KB左右,这就对于供应商厂家技术提出了更高的要求。 声纹识别解决安全问题算法解决数据难题 车载语音除了帮助驾驶员解放双手,减少注意力的分散,更多的是为驾驶员提供一种更为舒适的驾驶体验,提高对整辆车的掌控感。但车载语音的出现也带来了一个问题,当车内并非只有一人时,其他人如果也通过语音来控制车辆,如行驶过程中打开后备箱、打开车门等,反而会对驾驶造成一定的安全隐患。 对此,谢基有表示,声扬科技非常擅长的一个领域便是声纹识别,可以判断出哪些语音是车主本人所说的,哪些是其他人说的话。通过声纹判定了身份也就确认了是否有进行该操作的权限,从而解决上述问题。声扬科技也与国内的一些汽车品牌进行合作,当行车过程中靠近某个景点,提示是否需要购买门票时,可以设定只有具备权限的人,才能完成确认进行购买支付的操作。 并且声纹识别也可以进行活体检测,通过语音图谱,可以清楚的辨别是否是真人在现场说话,还是通过录音回放甚至是通过语音合成的方式进行通话,这种声纹鉴定技术也被应用在了防电话诈骗等安防领域。 当然,众所周知,做声纹识别等生物识别技术时需要使用到大量的数据,帮助企业进行技术的迭代,但许多语音厂商拿不到主机厂的数据,主机厂没有没有语音厂商的技术,又不愿意分享车内数据以提升产品功能,因此很难实现有效连接。而语音如要发挥最大优势,还应该与车控以及V2X部分进行连接。但是主机厂在这方面也对语音厂商有限制,因为如果连接的话会增加主机厂的风险。 谢基有表示,V2X有两种数据,一部分是车辆本身的行驶数据,如车速等;另一部分则是语音的数据,而语音厂商目前只需要语音数据去完成算法性能的提升,其实并不需要大量的数据,可以在应用过程当中通过自动学习来进行迭代。 同时,在应用之前,声扬科技也会通过其他场景中的语音数据,来优化算法,尽管与车内环境场景不同,但在人物的声纹特征上是一致的,通过降噪等算法,让应用环境差异变得更小,也更适用于车内的场景。因此可以认为,声扬科技的算法具有较好的普适性及独创性。 5%到20%新能源汽车带动车载语音快速发展 据中汽协发布的《2021年中国汽车市场预测报告》显示,预计2020年全年汽车总销量将达2530万辆,其中新能源汽车销量约达130万辆,占比约为5.14%。而中国推出的《新能源汽车产业发展规划》从政策层面明确提出,到2025年我国新能源汽车销量将占总销量的20%,显然未来几年,新能源汽车还有巨大的发展机遇。 而新能源汽车的快速发展,也将带动车载语音的快速渗透。谢基有认为,新能源汽车代表着造车新势力,他们对于新技术的接受程度会更高,并且新能源汽车一个很大的亮点就是智能,除了ADAS智能辅助驾驶系统外,智能座舱也是也是其中重要的一环,而车载语音便是与智能座舱紧密结合。 在过去几年,汽车中车载语音大多在后装市场,许多传统车企对于新技术的接受程度较低,想要说服这些企业在前装便把语音系统加入进去较为困难,因此只能采用后装的方式,这时候就出现了如智能后视镜、智能中控等技术。 不过目前有一个趋势,车载语音正在向前装市场渗透,随着新能源汽车的快速发展,对于车载语音具有极大的推动作用。声扬科技也表示,会持续在两个方面进行发力,一个是前端语音信号的处理,如何去解决源头的问题;二是解决安全性问题,通过声纹识别,如何在操作控制过程当中将安全性做好。 能够看到,在这个市场中,汇集了许多互联网大咖,对于这些巨头而言,需要做完整的智能生态,因此车载语音这一块自然也不会放过。但并不代表BAT这些巨头做了生态之后,其他企业就没有机会了。车载语音包含了太多的技术点,而每一个技术都能够产生巨大的市场空间。 就如同王博所提到的那样,车载语音场景为驾驶员带来更大的安全性,而语音交互也并非新的技术,最后必然会成为一种标配,随着网络速度和技术的发展,带来的无非是驾驶者对其依赖的程度逐渐加深,从目前的可有可无变为真正的需求。

    原文章作者:蓝领星球,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    3437 0
  • 亿咖通科技赋能星越L“主驾极客模式”免唤醒深度语音交互体验 ...
    在汽车智能化发展的大背景下,汽车人机交互方式呈现出多元、复杂的发展态势,数字触屏、语音交互、手势控制、多模交互等全新车载交互技术蓬勃兴起。语音交互因其便利性和高效性,能够令驾驶者专注驾驶、确保驾驶安全,正演变为智能座舱的主流交互方式。 亿咖通科技走在语音交互技术创新与人性化设计的前端,通过深度定义语音能力,同时注重智能座舱语音交互人性化有温度的一面,为吉利汽车旗下旗舰SUV星越L打造突破性的“主驾极客模式”功能。“主驾极客模式”为主驾提供专属的、永久在线的免唤醒语音交互,并且可以直接执行带有变量的复杂交互指令,真正做到“有事直说,有求必应”,开启车载语音交互向更高阶段发展的新篇章。 免唤醒语音交互,全时响应,“有事直说” 在车规级高通骁龙8155芯片算力与亿咖通科技自研的语音语义边缘计算解决方案的配合下,亿咖通科技为主驾打造出进化版的专属语音交互体验。星越L座舱内配备7个麦克风,语音交互系统会通过强大的算法进行精准的四音区抗干扰拾音,准确定位声源,全时锁定主驾的每一句轻声细语,只为主驾提供免唤醒服务特权。 这种全时在线的语音交互模式与“延时聆听”功能有很大的本质区别。延时聆听需要用户先进行一次唤醒,唤醒后语音交互功能可以实现一段时间的在线保持,直至休眠。 星越L(参数|图片)的“主驾极客模式”一旦开启,之后每次启动车辆后“驾乘助理”都会自动上线,减少了车机交互输入的时间和精力成本,为主驾提供全程陪伴的专属语音服务,带来更为舒适、人性化的出行体验。 智慧聆听复杂指令,去伪存真,“有求必应” 得益于亿咖通科技自研的语音语义边缘计算解决方案以及8155芯片超强算力的加持,“主驾极客模式”下的语音交互体验则更显智慧。系统会对主驾语音进行实时语义分析,“甄别”主驾所表达的语句是否为有意义的真指令,继而判断是否需要做出响应;对于无意义的“伪”指令,则不予理睬。亿咖通科技智能语音解决方案目前对无效语音指令的识别率超过90%,确保了人机交互体验更接近与真人的沟通。 普通场景下,系统会预先将一些不含变量的诸如“打开导航”、“下一首”等语句设置为车机可直接执行的唤醒词。而开启了“主驾极客模式”后,对于包含变量的复杂语音指令,主驾同样可以用免唤醒的方式与车机进行交互,实现更加人性化的自然沟通。诸如“打开空调调到23度”、“查北京到杭州低于1000元的机票”、“推荐杭州人气最高的法餐”这类需要整合多个信息点进行判断的语句,这位“驾乘助理”完全可以实现智慧聆听,深度理解,快速反馈,真正做到“有求必应”,整个交互过程更加高效、愉悦。 亿咖通科技以“加速汽车智能化,创建人车新关系”为使命,在智能座舱语音交互技术上不断创新和突破,让语音交互功能成为全新人车关系的纽带,让汽车成为用户智慧的“驾乘伙伴”。在带给星越L用户人性化、富于情感的交互体验的同时,亿咖通科技也引领汽车行业人机交互方式完成了一次新的迭代。未来,亿咖通科技将赋能更多汽车品牌带给用户更安全、人性化的智能座舱交互体验,不断探索智能座舱发展新方向,引领汽车行业快速智能化变革。 上游新闻.重庆晚报记者 顾立 实习生 左倩云 原文章作者:上游新闻,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-27
    2398 0
  • 【大咖开讲】杭州国芯凌云:ai语音交互在穿戴产品中的应用实践
    自从iPhone 4S推出SIRI后,智能语音交互应用得到飞速发展。天猫精灵或小爱就是最典型的例子,疲惫的回家之后,叫一声天猫精灵就能放出一首安静的音乐。 随着计算机技术的普及,当今人们的生活已经逐渐走入智能时代。不仅仅是电脑,手机,PAD,人们的衣食住行的方方面面都开始应用出现不久的智能技术,智能电视,智能导航,智能家居等等,智能技术将在人们生活的各个方面提供方便快捷的服务。 那么,TWS如何更好的实现语音交互呢?在12月8日《潮涌国产芯,TWS创变全球》峰会上,杭州国芯凌云的演讲《AI语音交互在穿戴产品中的应用实践》为大家解答了这个问题。 智能三要素 这么多年来,电子消费品厂商一直在干的事情,就是智能。从最早智能手机开始,到机器人,到智能音箱,现在是穿戴。穿戴,以前只是一个装饰品,比如耳环、手表,现在也要智能。背后到底做一些什么东西,它可以智能呢?有三样东西很重要。 第一点是连接,手机从过去的只能通话到现在有这么丰富的内容,因为它的连接可以获取到很多的信息。iphone的火起来,也是因为3G、4G的发展。 第二点是交互。智能,很重要的一点是非常轻松自然的舒适的。 第三点是产品具有可扩展性。功能机跟智能机最大的区别在于,智能机可以装APP,可以有无限扩展的能力。 今天的智能穿戴,怎么把这三件事情做好? 首先是连接部分,现在要么是用蓝牙,要么是用WIFI,已经形成标准化了。 其次是交互,交互在穿戴产品上依旧是很大的难题,因为手段目前来说是非常少。再次是扩展,现在也是一个问题。用AI语音的方法是交互和扩展的很好解决方案。现在想去操作TWS,你的手段很有限,因为你的耳机可能就那么一个触点。 一般的厂家会设计敲一下是什么功能,敲两下是什么功能,敲三下是什么功能,甚至有的厂家做到了敲四下,实际这个可操作性是非常差的,因为有时候敲一下没反应,敲一下又变成另外的功能了。 AI语音是非常好的的交互形态,可以直接说,电话来了接听电话。如果觉得这是骚扰电话,就用语音挂掉电话。或者你听着歌走进星巴克,买一杯咖啡,这时候你说暂停播放,就进去了。语音有它的便利性、直达性,可以延伸出很多的功能。 怎么去做 AI语音在手机音箱上已经发展到比较成熟的阶段了,今天探讨的问题是怎么样让AI语音在穿戴的场景去做。 在穿戴的场景去做,显而易见,最大的问题是功耗的问题。整个产业,以前做智能音箱,智能音箱的芯片一般来说都要到1000mW。后来做一些IOT类的产品,基本上也是100mW。大家用麦克风,最简单的一个数字麦克风,它的功耗差不多要1mW。 怎么解决功耗的问题呢?杭州国芯在2019年就针对这样的场景专门做了一个芯片,型号叫GX8002,是针对穿戴产品做的一颗超低功耗语音唤醒芯片,主要是解决功耗的问题,同时还便宜,让大家用得起。 这颗芯片采用了MCU+NPU的方式。我们做的硬件VAD,NPU也是我们公司自研的第二代NPU。芯片用了一个平头哥的MCU,可以接模拟麦克风,也可以接数字麦克风,接骨传导麦克风。为了提高集成度,我们还内置RC晶振。 VAD有70uW,工作的时候只有0.7mW,怎么让更多的时候停留在VAD状态呢?杭州国芯对VAD这块专门做了非常多的研究和设计,需要尽量识别准你这个时候有没有在说话,我们在很多典型的场景做了测试,比如在办公室、在地铁、公交车、咖啡馆。在这些场景,做一个小时、半个小时的测试,70%、80%的时间都可以让让它工作在VAD待机的状态。 这颗芯片可以做唤醒,唤醒率控制在比较好的水平。同时还可以做自定义词条,比如接听电话、播放控制等。同时可以做AI降噪,也有比较好的效果。 杭州国芯可提供两个封装,一个是QFN3×3,一个是WLCSP,也是比较小。 在具体耳机应用的时候其实非常简单,就跟用一个按钮差不了太多。可以跟蓝牙共用一个麦克风,所以不会增加一个麦克风。被唤醒之后会发一个中断,用户可查询一下是什么东西唤醒就可以,所以整个过程是非常简单的。内置了Flash,也内置了晶振,外围非常精简。 针对耳机场景,如果要去做产品会有几个注意事项。 第一个是去做语音识别对声学结构是有要求的,大家千万不要用特别粗暴的方式去做这个事情。声学结构要求也不高,主要是两点,一是麦克风的密封还是要做的;二是喇叭的回声是要控制不能让喇叭的声音给漏回麦克风,这样语音识别效果就很差了。 第二个是与手机打通,唤醒词是有标准协议,HFP调语音助手。一些快捷词,蓝牙的协议也有定义,上一首、下一首包括接听电话等。通过BLE接入手机APP,同时还有小度、小爱同学、天猫精灵、Alexa等等。第三个是低功耗设计,Always ON供电,蓝牙芯片可以完全休眠。 杭州国芯今年做了几个客户,像QCY、漫步者,以及科大讯飞的iFLYPODS PY1。 然后是头盔场景的设计,怎么做听电话、怎么做导航、怎么做我想做的事情,AI语音就有非常大的帮助。这里有风噪的控制,首先声学结构一定要处理好,比如一定要有挡风的罩子,或者你的结构能够让麦克风藏起来,千万不要让麦克风直接吹风,直接吹风就搞不定了。另外是在麦克风的出口放一张防风棉,去过滤气流的直接冲击。结构搞定之后,通过一些AI的算法,就可以做一些降噪,比如你打电话的场景,可以AI降噪的算法帮你做通话降噪等。 不仅如此,杭州国芯跟一些行业内做摩托车的、电动车的都有很多的合作,做起来的效果也不错。 第三块是手表,手表+AI语音相对做得更晚一点,杭州国芯也有一些案例,一方面是唤醒语音助手,一方面增加可玩性。另外一个有意思的东西,因为现在手表功能单一,加上了AI语音后会有更多的扩展性。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-27
    最后回复 签妍 2021-12-27 16:40
    3698 0
  • 不用按键不用触屏,语音手势眼神操控BMW自然交互技术要来 ...
    在2019世界移动通信大会(Mobile World Congress)上,宝马集团展示了一系列人与汽车交互的新技术,新系统将语音操控与手势控制和视线识别技术进行了结合,多模式联合操控的形式将可满足更加多样的使用需求。 文丨AutoR智驾 长金 确认过眼神,我遇见对的人。 以后这句话也可以改做:“确认过眼神,车遇见对的人。” 宝马集团此次展示的这一新技术,被称作“自然交互”技术。 根据官方公布的信息,宝马iNEXT将成为第一款搭载自然交互系统的车型,将在2021年推出。 所谓“自然交互”,就像人与人之间的对话一样,驾驶员可以通过声音、手势、眼神等多种方式组合在一起与车辆进行互动。而通过按键、旋钮、触控屏进行操作的传统方式,将在未来的智能汽车上被淘汰。 当驾驶员在交谈时,他可以选择手势和眼神对车辆系统进行控制;当他正在驾驶,眼睛关注着路面情况时,就可以依靠语音和手势来操作。用户可以根据自己的喜好、习惯或当前状况来决定如何互动。 并且,可以操作的项目不仅包括导航、多媒体、车联网等软件功能,还可对车窗或天窗的开合、空调风口的调节等硬件进行控制。 如果用户想更多地了解车辆功能,甚至还可以指着按钮问:“它们的功能是什么?”并且随着手势识别技术的不断增强,以及未来车辆之间的互联性增长,互动的空间也将不再局限于车内。 或许不久之后的某一天,用户将可以与生活环境进行更多的互动。即使是复杂的查询,也可以通过手指和语音来操作,比如你可以问系统:这是什么建筑物?那家店营业多久?这家餐馆叫什么名字?我可以在这里停车吗?费用是多少? 宝马集团电子高级副总裁克里斯托夫·格罗特(Christoph Grote)表示:”用户应该能够以一种完全自然的方式与他们的智能联网车辆进行交流,而不用为了得到他们需要的功能去考虑使用哪种方式。在未来的座驾上,人们应该自由地做出决定,汽车也应该能够理解他们的需求。宝马的自然交互系统是未来自动驾驶汽车的一个重要配置,届时,车内的驾乘者将得到更加自由的体验。” 在人机交互系统的研发上,宝马一直都非常重视,其第一代iDrive系统在2001年便已推出。 从2015年起, 通过使用3D摄像机实现的手势控制技术实现了无需触控的全新操作方式。2018年,还推出BMW iDrive 7.0人机交互系统,拥有全数字显示屏,优化的语音识别和手势控制功能,操作系统更加个性化,定制化程度也更高。 据悉,BMW自然交互系统将在2019年首次在交互系统中加入方向信息及周边信息,驾驶者通过手势指向即可实现互动。 通过红外线信号的识别,手势摄像头可以捕捉到手指的运动,高清摄像机则可以记录乘员头部和眼睛的方向,并对图像进行评估。根据这些数据,系统便可进行相应的处理,从而转换成相应功能的响应。 有了人工智能技术的结合,系统还具备了学习能力,可对不同的操作场景进行评估,不断优化和细化车内数据解析算法。这意味着,用户使用的时间越久、次数越多,交互系统就越了解用户的喜好和习惯,后续的使用就更加便利。 此外,得益于智能网络技术的进步,这套自然交互系统的功能还将“超越座舱内部”,将更多的服务拓展到车外。用户可以用手指着车外处于视野范围内的物体,并发出相关的语音指令。例如:询问某个商店的营业时间或顾客评分信息、在餐馆预订位置等。 如此一来,汽车就不再只是代步工具了,而是变成了一个“消息灵通的助手“。通过连接数字服务,未来还将可能扩大互动的范围。例如:当用户想要停车时,车机系统可以让他们轻松得知哪里有车位、费用是多少,然后直接进行预订和付款。 在2019世界移动通信大会的宝马展台上,参观者在沉浸式应用场景中进行了亲身体验。通过一个特别设计的空间模型和虚拟现实眼镜,宝马为观众创建一个模拟现实场景,可以虚拟驾驶宝马iNEXT。 通过手势与语音交互方式,体验者们感受到了未来智能出行的便利性。自动驾驶汽车完全接管了行驶操作,乘客们可以将全部的精力用在“观光”上——指着建筑物,获取他们需要的有关信息。或者在旅程快结束的时候,预定他们之前经过的电影院的票,还能将电影的预告片直接发送到车上观看。 不仅如此,根据目前已公布的信息显示,通过改进传感器技术,未来还会将用户的情感考虑在内。通过这种方式,车与人之间的互动将变得更加人性化。系统将根据情境状况和用户情绪进行综合分析,从而判断是等待用户指令还是主动提出建议。 现如今,传统的物理按键就要逐渐退出历史舞台了,取而代之的是触控大屏。不过,触控大屏的操作方式在本质上其实与物理按键并无区别,依旧需要通过肢体接触来实现控制,只不过实体按键变成了虚拟按键而已。 从这一点来看,语音控制、手势控制、眼神识别才是彻底的颠覆性交互方式,它们都不需要驾乘者与车机系统有任何的物理接触。而屏幕,就只是一个屏幕而已,不再承担“虚拟中控台”的角色。 智驾君认为,对于真正的智能汽车而言,无接触人机交互技术未来必将成为一个具有标志性意义的配置。

    原文章作者:智驾网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-27
    2253 0
  • 探境科技发布首个离在线一体语音识别解决方案,自研AI ...
    http://5b0988e595225.cdn.sohucs.com/images/20191227/38846d264b2645758c821a03f6e7f2e4.jpeg 【猎云网北京】12月27日报道 AI芯片近年来快速发展,众多企业纷纷布局,新型芯片架构不断涌现,多个场景下的智能芯片应用正在加快部署。其中,智能音箱的火热以及背后语音交互生态的成熟,带动了越来越多设备的语音化、智能化,并迎来了AI语音芯片的高速增长。 在接受猎云网等媒体采访时,探境科技技术副总裁李同治表示,虽然AI语音芯片快速崛起,但在语音控制技术层面仍面临诸多挑战。 AI降噪+HONN,无惧家居噪音 http://5b0988e595225.cdn.sohucs.com/images/20191227/773a18245d6f4cee9f2e280f0da5a770.png 注:图片来自探境科技 探境自研的AI降噪算法基于深度学习,不仅能够处理稳态的噪声,非稳态的突发性噪声也能很好的过滤。 相比较于全连接操作,卷积操作能够提供更高的计算强度,且卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。 http://5b0988e595225.cdn.sohucs.com/images/20191227/1fe789c97bf346469cc20f4c2effa816.png 注:图片来自探境科技 同时DNN与HONN所需的算力相反,处理高强度模型单帧时,HONN需要超过几百兆OPS,而一般的DNN模型需要个位数的算力。 正是依托于AI降噪技术+HONN神经网络,探境的Voitist音旋风611,可以覆盖绝大部分的生活场景,无惧各种噪音干扰。 端到端双麦加持,攻克0dB环境 然而信噪比还有一种更严苛的情况,即0dB和负dB,0dB意味着噪声和信号强度一样,甚至噪声比语音信号还要强。 传统的麦克风阵列处理算法有几大缺点。 首先,在语音信号增强模块,波束成形依赖于声源定位(DOA),DOA依赖于单麦克唤醒词检测。远场环境唤醒词检测使用单麦信号不用增强后的信号,会影响最终的唤醒率。 http://5b0988e595225.cdn.sohucs.com/images/20191227/11f764d9933f4d95b5f05761b1fb32bf.png 注:图片来自探境科技 再次,由于整套流程对麦克风以及电容元器件的一致性要求非常高,提高了物料成本。 另外,波束成形算法原理是增强特定方向波束内的信号强度,衰减波束外的信号幅度。当干扰声源和目标声源方向非常接近的时候,两者在同一个波束内,信号和噪声同时被增强,无法提升信噪比。 因此,传统的麦克风阵列处理算法效果并不理想。 “为了克服传统分模块语音增强算法的这些缺点,我们设计出了基于FCSP的端到端AI双麦算法”,李同治表示。FCSP(Frequency Complex Subspace Projection)是探境自研的频域复数子空间投影算法的简称。 http://5b0988e595225.cdn.sohucs.com/images/20191227/f4ab74728a214ab9839dade518f4f8c3.jpeg 注:图片来自探境科技 “这个类似于在一个嘈杂的环境里面,如果有人喊自己的名字,一下子就能反应过来。”李同治做了一个形象的比喻。 http://5b0988e595225.cdn.sohucs.com/images/20191227/4ab0026a901c435cab3ebb60ce7687a6.png 注:图片来自探境科技 当然,AI芯片不可能脱离芯片只谈算法。性能优异的算法,一定需要算力强劲且通用性强的AI芯片来支持,才能展现出强悍的实力。 探境自研的SFA架构,以存储驱动计算,具有能效比高、资源利用率高、通用性强等特点。在SFA架构上实现深度学习时,只需要一个较高层次的神经网络描述。 SFA的编译器首先将这个神经网络进行全部融合,然后根据具体架构实现的规模产生一个统一的存储流图,再进行存储节点的时空映射,最后根据各个节点之间的计算类型配置计算单元,组合起来形成一个统一的固件供SFA控制器使用。 这意味着SFA架构所采用的各种微观和宏观调度算法,比较“类CPU架构”采用的基于总线和指令集的映射方法,在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下,可以获得8~12倍的利用率收益。 “SFA(存储优先)架构是探境的产品基石,正是借助SFA的优势,我们的AI芯片产品才能‘裂变式’的推出,大大加快了探境的商业化落地速度。”探境CEO鲁勇这样评价SFA架构的意义。 多种产品规格,实现百万级出货 除了支持AI双麦的Voitist音旋风612之外,还包括在离线一体的Voitist音旋风621、以及语音芯片的旗舰产品——可支持本地NLP的音旋风7系列。 探境目前拥有约30家合作伙伴,出货量已达百万级别。探境的战略合作伙伴关系既有美的、海尔等智能家居制造的大厂,也有像世强科技这样在垂直领域颇具影响力的渠道商。据透露知名智能家居制造商阿凡达智控也刚刚与探境达成合作。 http://5b0988e595225.cdn.sohucs.com/images/20191227/765605536fad4424869fbd0b2aec46c5.png 注:图片来自探境科技 据探境科技创始人&CEO鲁勇透露,未来,探境还会将语音产品进行二次升级,推出更多在线离线一体化方案。 “探境不仅仅是一个语音芯片公司,而是一家语音、图像整体结合的AI芯片公司。AI芯片的蛋糕非常大,探境希望可以联合上下游一起,开发生态,开放SDK和工具链,不仅仅是大家可以直接使用我们的产品,我们也希望有大量的合作伙伴,完成更多的场景开发。”鲁勇表示。 另外,探境公布了首个图像芯片的IPS/W高达800,是目前已知AI芯片中最高的。在已公布的发展战略中,探境还瞄准了工业视觉、新零售、安防、辅助驾驶等市场。 据鲁勇介绍,探境的图像芯片在2019年Q4就已经流片成功,图像的某些领域甚至已经开始产生营收了。 鲁勇认为,AI芯片这一领域不像手机APP那样,瞬间可以凭一款应用获得数百万的用户,AI芯片更像马拉松长跑,比的是耐力,而不是冲刺速度,在这场比赛中,不是要看谁跑得快,而是要看谁有潜力到达终点,谁在中途不走岔路 原文章作者:猎云网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-23
    最后回复 杆括 2021-12-23 07:10
    3457 0
  • 大象声科携重磅新品参与CES,AI通话降噪让你「耳听为实」 ...
    CES 2020于1月7日-10日在美国拉斯维加斯隆重举行,作为全球规模最大的消费电子类展会之一,CES聚集了全球最先进的科技产品和技术。在这一年一度的科技大展中,大象声科携Vocplus Headphone AI降噪方案、Vocplus Smart AI单麦抗噪唤醒交互模组等多款重磅新品,与合作伙伴和客户们共同探讨和推进AI音频的合作与应用,为消费电子增添AI新动力! http://5b0988e595225.cdn.sohucs.com/images/20200113/0d69861623ff4540a8d6f68525afaf23.jpeg Vocplus Headphone AI单麦骨传降噪 首次公开亮相 让你“耳听为实” 在今年的CES上,无论是行业老手还是新晋玩家,似乎每个耳机厂商都秀出了当家TWS新品,且大多耳机型号都具有主动降噪的功能。在近两年由AirPods引领的TWS浪潮中,各厂商由“模仿”到差异化创新产品,在降噪层面,除了主动降噪功能,通话降噪也成为趋势,并逐渐成为TWS耳机的标配。但是,传统通话降噪方案大多采用多麦阵列,难度大、成本高、且降噪场景十分有限。 大象声科Vocplus Headphone AI单麦骨传降噪方案,以其业界领先的通话降噪效果,成为各耳机品牌厂商关注的焦点,致力于帮助品牌商打造更具市场竞争力的TWS产品。该方案将AI人声提取技术和骨传导高效融合,全面覆盖包括地铁、马路、酒吧等各类超低信噪比场景,能够有效隔绝周围人的声音,大幅提升语音通话清晰度和人声还原度。此外,基于深度学习技术的AI降噪方案,不受限于声学结构设计,性价比高,可以说是TWS耳机通话降噪的「终极」方案。在本届CES上,大象声科更与国内明星音频品牌客户漫步者共同展出搭载此方案的TWS耳机,让你“耳听为实”! 除AI单麦骨传降噪方案以外,大象声科Vocplus Headphone还拥有可定制化的AI单麦及双麦降噪方案,在降噪幅度和人声还原度等方面都可以做不同程度的优化,满足多种场景下耳机通话降噪差异化需求。Vocplus Headphone方案已经在TWS(入耳式/半入耳式)、颈挂式、头戴式、单边话务耳机等各种耳机形态落地,开创蓝牙耳机通话降噪的新“静”界。 http://5b0988e595225.cdn.sohucs.com/images/20200113/9156356fcf1244348aeb084899500991.jpeg搭载大象声科Vocplus Headphone方案的合作品牌客户TWS耳机在CES上展出 AI抗噪唤醒交互模组 性能卓越“硬”实力 复杂的生活场景对于语音交互来说一直都是个难点,如汽车发动机、厨房的抽油烟机、以及客厅的电视声、各类家电噪声等,都会给人机语音交互带来阻碍。大象声科AI单麦抗噪语音交互模组的抗噪性能卓越,能够在各类复杂噪声环境下,实现对用户指令的精准识别。 该模组集合大象声科领先的AI智能降噪、回声消除、语音唤醒等AI语音交互核心技术,可快速实现语音识别、对话交互、语音技能、语音控制等功能,能够轻松实现对用户指令的精准识别;且模组尺寸小(仅12*15mm),功耗更低,可广泛应用于小家电、儿童机器人、智能音箱等领域。本次CES期间,也是大象声科AI单麦抗噪语音交互模组的首次亮相,欢迎感兴趣的朋友前来参观指导,共同探讨人机交互的发展趋势。 http://5b0988e595225.cdn.sohucs.com/images/20200113/f387720ffec04792bd076634f1875fb4.png 大象声科AI单麦抗噪语音交互模组应用场景 携手合作伙伴 打造共赢生态 作为机器听觉技术引领者,大象声科在此次CES期间,与Intel,Cadence等多个合作伙伴共同展示Vocplus AI语音技术,通过算法与芯片的强强联合,为大家带来强大的智能语音新体验。 http://5b0988e595225.cdn.sohucs.com/images/20200113/9fd7cc708bc14b4cb90ee5ff36fc1624.jpeg 大象声科与Intel联合展示基于Intel CPU&GNA的AI通话降噪方案 http://5b0988e595225.cdn.sohucs.com/images/20200113/f3fc309f75c549d79da809991ba10c44.jpeg 大象声科与合作伙伴Cadence共同展示Vocplus AI语音技术 大象声科董事长兼CEO苗健彰先生表示,不论是过去还是将来,大象声科都将与上下游产业链合作伙伴一道,继续引领行业发展趋势,共同构筑技术生态。5G和AI大潮当前,大象声科将抓住机遇,不断发挥自身在人工智能算法和商业化落地能力的领先优势,继续深耕AI通话降噪领域;同时,不断开拓更多相关应用领域,为越来越多的用户带来更加丰富的语音体验。 http://5b0988e595225.cdn.sohucs.com/images/20200113/fc015acfa2da4863a769434a1601e484.jpeg 大象声科受邀参与China Tech First Look媒体见面会 从成立至今,大象声科只争朝夕,用自己的方式将人工智能赋能产业、推动AI语音技术的发展与应用。2020,在这一个新的10年的开端,我们坚信,凭借大象声科深厚的技术积累,前沿的研发路径,加上脚踏实地的实干热情,大象声科定会不负韶华,让人与人之间的沟通更高效,让机器更懂你我! http://5b0988e595225.cdn.sohucs.com/images/20200113/b8c64a02a07f422fb565713cc580a066.png 原文章作者:大象声科ELEVOC,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-23
    最后回复 廓饪 2021-12-23 00:56
    3056 0
  • 探索多模态交互之旅
    http://img.mp.itc.cn/upload/20170227/706303595af84b77847d71a96dc7373f_th.jpg 在写这篇文章之前,先谈一个插曲,行业内很多人认为IBM的沃森技术非常了得,但是我们有接触过沃森演示的资料吗? 华南国际经济贸易仲裁委员会首席技术顾问张力行说:“目前,全中国都在述说沃森,但是我通过各种渠道(包括官方网页、官方微信等)联系IMB都没有任何的资料反馈,也询问周围的朋友们,也都没有亲眼目睹过沃森的真面目。” 同样的事情去询问其他类似公司,比如美国的其他做人工智能的企业,包括以色列的公司都能够快速的反馈过来,为什么偏偏得不到沃森的任何资料。这个问题需要我们思索。 接下来我们再谈多模态交互之智能语音、机器视觉、移动底盘之间的结合。 现在讲多模态技术最难的地方就是各个企业之间,基本上都在自己熟系的领域去深耕,对相互之间的技术结合基本上都不是很熟系,这就困扰多模态技术之间的结合。 从这次1号机器人网研讨会上反馈的信息来看,机器人企业期待上游的企业,如科大讯飞能够提供再进一步的技术方案,或者有能够直接提供多模态交互技术的产品,而上游的技术企业,则认为这是终端机器人产品集成商应做的事情。 这就导致我们想要的多模态技术交互都是有缺陷的。 在技术上来说,智能语音、机器视觉、移动底盘在使用的过程中都还存在问题,这让很多机器人企业非常的折腾。 从移动底盘上来说,深圳市步科电气有限公司(简称:步科)营销总监温琦说:“移动底盘产品是成熟的,可以应用到各种机器人身上,但是目前确没有成熟的SLAM技术方案。” 还比如机器视觉,很多厂家都说,机器人植入深度视觉后,在行走的过程中,可以躲避障碍物,但是应用到场景里,还是存在很多的问题,比如机器人前面多几个人行走,就会导致机器人行走速度会变得很慢,或者直接不灵了。 最后是智能语音,对很多机器人企业而言,目前是最头疼的问题,因为很多语音企业都说识别准确率高达90%以上,但是从机器人企业的反馈来看,应用到场景里体验是不好的。 其实这里有一个问题,智能语音包括语音与语义,如果语音识别准确率达到90%,语义识别准确率也达到90%,其实这两者是相乘的,一结合可能就只有81%的识别准确率。 而且目前我们所涉及的语义还只是文本,对于视频、图片、运动数据等更多元的素材采集,基本上非常困难。 深圳市狗尾草智能科技有限公司(简称:狗尾草)首席科学家张博说:“从多模态交互的角度去看,在目前的智能语音技术上,再去扩展视频、图片、运动数据等素材采集,我们只能通过语义处理语义,视频处理视频等方式去处理,如果要结合起来是非常困难的。” 先不说把图片、视频、文本等结合,就算以文本的角度去讲也很难,小I机器人售前顾问甘楚辉说:“小I的数据库里,各个领域的知识库是分开,如果要结合在一起,占用的资源会变得非常大,对整体的性能影响也会很大,就算要结合也只能是分开穿线。” 所以在多模态交互的探索上,我们基本上还处在刚开始的阶段。 目前我们先不深入的去探究,站在我们现有的产品集成上,我们可以做到怎样的多模态交互。 把智能语音、移动底盘、机器视觉结合,目前已有落地的机器人产品。 比如深圳市锐曼智能技术有限公司名下的小曼机器人,当我们呼叫小曼机器人时,它是可以定位我们的声源,甚至还可以走到我们的面前。 科大讯飞股份有限公司(简称:科大讯飞)商务总监廖凯说:“这三者结合的多模态交互,在生活中可以做到,我在与机器人一边走路,一边讲话的时候,它是可以进行人脸的捕捉,移动的追踪,所以它会在移动时面朝着你,这会让你感觉非常好。” 就从这三个技术的成熟度来讲,在这次1号机器人网研讨会上,很多嘉宾认为,以目前的技术水平,能够实现产品盈利的也只能是玩具级的产品,如果是商用级的产品,我们还需要花很长的时间做研发投入。 过去我们追捧机器人+资本的模式,通过资本的进入去进行产品技术的研发,但是这条路从去年以来已经变得越来越窄。 如果还只是拿上游企业的产品,比如:智能语音、移动底盘、机器视觉,再进行定制化场景应用的机器人,估计已经很难再拿到资本。 因为很多投资人已经知道内部的事情,而且也知道内部细节的难度在哪里?尤其是融合的阶段,什么技术处于可商业化,什么技术还达不到商业化的阶段,所以对机器人创业者而来,我们自己也需要理性化,做一些深思熟虑的判断。 从营销策略的角度去分析,特别是对于玩具级别的机器人产品,我们不要过分让用户对产品有太高的期望,廖凯说:“我之前有一个客户是做香味盒,在这个香味盒上植入了语音交互功能,坦白说,他们二次开发的语音交互体验做的并不好,但对用户而言,就算体验不好,但是它还是可以提供香味需求。” 往往我们能够抓住跟智能无关的点,就会有用户粘性,其实用户会给你一个容忍度,给你升级迭代的机会,但是我们不能给用户太高的期望。 在商业级的服务机器人里也有成功的例子,温琦说:“美国企业做出来的很多机器人是在商场里做分拣,它不是服务于人,或与人做交互,而是为商场管理货物提高效率。” 1号机器人网(www.1hjqr.com)机器人行业最权威媒体 原文章作者:1号机器人网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    最后回复 兑笞 2021-12-22 19:01
    1916 0
  • 【产品】科大讯飞智能交互新突破:AI虚拟人多模态交互 ...
    近年来,随着人工智能的不断发展以及与各行业的深度融合,AI虚拟形象技术的应用场景也越来越多元化,除了虚拟主播在各大新闻媒体平台的频繁亮相,AI虚拟人智能交互服务也逐渐走入寻常生活中。 在大型商场、零售门店、酒店住宿、旅游景点、智慧社区等衣食住行场景下,我们与Ta“面对面”互动交流,获取订餐、约车、天气、寻医、科普知识介绍等便捷的生活服务; 在政务单位、办事机构等场景中,Ta能够在事务办理前提供自助的咨询和指引服务,提升办事机构的服务效率、透明度与时效性,弥补人力不足的难题; 在公共交通客流量大、人员结构复杂、出行需求多样化的地铁、高铁、机场里,Ta提供专业的无接触操作、购票、出入站指引、问题咨询等服务,帮助解决智慧交通出行急需的痛点需求。 在银行、证券及保险客服等部门,Ta帮助金融行业客户有效解决传统人工客服存在的服务时间长、服务效率低、服务标准化、人力成本高、管理难度大、业务覆盖不全等问题。 数字经济的推进,疫情防控的常态化,催动着AI虚拟数字人技术的实践深入与应用普及。据国际市场研究机构Adroit Market Research报告称,全球交互式AI平台市场规模预计将从2019年的40亿美元增长到2025年的170亿美元,数字人、语音助手是交互式AI平台的主要增长市场。 基于此,我们上线了AI虚拟人多模态交互服务解决方案,由科大讯飞自主研发,运用新升级的AI虚拟形象技术,结合语音识别、语义理解、语音合成、虚拟形象驱动等AI核心技术,通过SDK、API等服务接入,在手机APP、大屏一体机等终端进行展现,实现用户与AI虚拟人之间的“面对面”互动交流、业务咨询、智能问答、服务导览。 http://p0.itc.cn/q_70/images03/20210114/a9fd255c5d154b99925ba7ca63e6acb5.jpeg ▲ 讯飞AI虚拟人交互服务展示 方案构成 简单来说,AI虚拟人多模态交互服务解决方案主要包括以下三个部分:AI智能交互一体机硬件、 AI智能交互管理系统、 AIUI交互技能与问答库系统,支持线上业务、线下门店两种接入形态。 http://p2.itc.cn/q_70/images03/20210114/a69ced0cfd0f4cf092de13394e97a175.jpeg http://p3.itc.cn/q_70/images03/20210114/35162b8706194d5ca904d2fc02db015f.jpeg 虚拟人支持2D真人形象与3D卡通形象,以及个性化语音库的专属定制。根据客户的应用场景,提供SDK、API等接入方式,满足手机APP、一体机等多终端体验。上百种AIUI通用技能,丰富的问答知识库储备,语音识别、语义理解、语音合成、形象驱动、视频渲染服务全链路保障,可灵活选择公有云、私有云的部署方案,为用户带来安全稳定的交互服务。 http://p2.itc.cn/q_70/images03/20210114/8a37885cff4f43ca9005624f7c5fca6d.png http://p1.itc.cn/q_70/images03/20210114/2a5b63298c3b4b268381450577e7bd97.jpeg 产品优势 去年亮相于2020科大讯飞全球1024开发者节现场的AI虚拟人5G交互一体机,与内置的虚拟人小晴化身为虚拟导览员,为嘉宾提供会场信息咨询、位置引导等相关服务,带来了更加智能、便捷化的AI人机交互体验。 除此外,讯飞AI虚拟人交互技术已在公共交通、金融银行、政务机构、智能客服等领域逐步落地,青岛地铁站虚拟站务员以及交通银行客服系统等案例上线,通过“面对面”AI技术创新交互形式,有效降低了人力综合成本,提升了工作效率与服务体验。 http://p2.itc.cn/q_70/images03/20210114/2e4b5105031146999acf06e2471261ed.jpeg 讯飞AI虚拟人多模态交互服务解决方案具有以下优势: √ 形象逼真:口唇精准,交互画面流畅、语音自然清晰、体验佳、亲和感强。根据文本内容插入指向性动作,过渡自然,提升形象交互丰富度和灵活性。 √ 随时打断: 真人式对话体验,交流过程中即时打断,想问就问,对话时机零等待。 √ 低延迟率:实时沟通延时短,问后即答,真实还原“面对面”实时对话体验。 √ 多形式接入:提供服务端、本地端接入,支持云端、私有化部署,匹配多服务场景。 √ 一站式服务:提供AI虚拟人全链路AI技术、形象服务等,接入便捷,使用省心。 面向2021,AI虚拟人多模态交互应用通过语音识别、语音合成、自然语言理解、图像处理、口唇驱动及虚拟人合成等核心技术,提供互动交流、业务办理、问题咨询、服务导览,实现虚拟人与真人的“面对面”实时交互,解决用户实际业务问题的创新性、智能化产品解决方案,提高服务效率与服务体验、降低人力综合成本、规范服务流程,为客户创造实际应用价值。 以人工智能为驱动的虚拟人将进一步促进企业转型升级,同时在品牌形象提升上发挥重要作用。 原文章作者:中国智能家居产业联盟,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    最后回复 牵嫣 2021-12-22 14:52
    1807 0
  • 中国语音产业联盟:语音助手交互量同比增长84%,讯飞市占率第一
    近日,中国智能语音产业发展高峰论坛暨中国语音产业联盟2021年会在北京举行。业内专家指出,语音交互赋能的智能设备正快速增长,语音助手交互量同比增长84%成为智能硬件核心应用。 http://i1.go2yd.com/image.php?url=0a0YydpBUQ 同时会上发布《2020-2021中国智能语音产业发展白皮书》(以下简称《白皮书》)。白皮书显示,在行业格局上,科大讯飞以60%市场份额稳居第一。 白皮书引用德勤数据显示,在行业格局上,科大讯飞以60%市场份额稳居第一;阿里、百度等为代表的互联网企业占据约20%市场份额;其他智能语音参与者,如捷通华声、智臻智能、思必驰、云知声等,总体份额小于 20%,我国智能语音市场呈现“头部集中”的竞争格局。 http://i1.go2yd.com/image.php?url=0a0Yyd8TzT 当前,我国智能语音企业持续推进“平台+赛道”发展模式,一方面通过开放平台为开发者提供场景创新的技术支持,另一方面凭借自身优势持续拓展智慧教育、医疗、城市、车载、家居等赛道,构建产业生态圈。 《白皮书》谈到,围绕企业级市场和消费级市场,智能语音相关应用正在加速落地。在企业级市场,智能语音在智慧教育、智慧医疗、智慧城市、智慧制造等领域发挥越来越重要的作用。在消费级市场,智能语音在智能办公、智能车载、智能手机、可穿戴设备、智能家居等领域的应用规模在不断扩张。 2020年,我国语音市场规模达217亿元,较2019年同比增长31%,预计2021年可达到285亿元,同比增速达到44%。智能语音已成为行业数字化不可或缺的“增长基石”。 智能语音市场增长速度如此之快,科大讯飞董事长刘庆峰表示,主要是由于人类正在进入人机物万物智能互联时代,而语音是其中最为重要的人机交互方式。 在语音交互赋能的智能设备快速增长的背景下,科大讯飞近几年在人工智能开放平台发展迅速,截至10月24日,已开放447项能力,开发者数量从去年12月的169万增加到284万,过去一年,平均每月新增9.6万实名认证的开发者;平台应用数量从去年97万增加到133万,新增应用中工业和企业数字化转型应用占比达60%。 在智慧教育领域,科大讯飞人工智能+教育应用已在全国各地学校落地生根,覆盖了32个省级行政区,常态应用超50000所学校,累计服务超过1亿师生。 http://i1.go2yd.com/image.php?url=0a0YydRkD2 在智慧医疗领域,科大讯飞智医助理基层全科辅助诊断系统已实现全国20多个省(直辖市)落地应用,截至2021年10月,智医助理已覆盖全国200余个区县,服务医疗机构达3万家,服务基层医生超过5万,提供了超过3亿次辅助诊断服务,有效提高了基层的诊疗服务水平。 在智能车载领域,截至今年11月,科大讯飞汽车智能化产品的合作已覆盖90%以上的中国主流自主品牌和合资品牌车厂,累计前装搭载量突破 2900 万。 http://i1.go2yd.com/image.php?url=0a0YydLMDn 在消费硬件领域,科大讯飞发布讯飞翻译机,开创智能消费的新品类,市场遥遥领先;围绕会议办公场景,推出讯飞听见、讯飞智能录音笔、讯飞智能办公本和智能键盘、鼠标等系列,围绕学习场景,推出AI学习机和翻译笔系列。今年618、双11大促期间,科大讯飞C端产品整体销售额增长强势。 618销售额同比增长108%,学习产品同比增幅达706%,双11销售额同比增长76%,AI学习产品同比增幅300%。AI+办公产品持续领跑,在618和双11期间,连续多年霸榜天猫和京东双平台相应品类销售额冠军。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    4254 0
  • 标贝成功入选亿欧《2021年中国智能语音行业解决方案及服务 ...
    近日,亿欧智库发布了《2021年中国智能语音行业解决方案及服务商品牌测评》报告,作为国内领先的AI语音技术及数据服务商,标贝科技从行业众多语音厂商中脱颖而出,成功入选此次报告。 https://p9.itc.cn/images01/20210413/a0021057a5e044d4852925c3c56020ff.png 据了解,亿欧智库《2021年中国智能语音行业解决方案及服务商品牌测评报告》是按照金融、教育、医疗、政务、电商、家居、汽车这七大应用领域划分,通过对2020年企业服务能力综合考量,评选出各大细分领域的领先代表,充分反映了当前人工智能语音产业的发展趋势。此次入选测评报告,不仅彰显了标贝科技优越的AI语音技术实力,也是行业机构对标贝智能语音解决方案应用能力的认可。 报告分析指出,在2020年政策、经济、技术、社会多维驱动传统企业数字化转型的推动下,凭借降低人工成本、提升企业自动化运转效率的优势,智能语音系统已经成为企业数字化转型的核心助力。报告统计,预计2023年智能语音市场规模将达到564.8亿元,同比增长率虽有所下降但趋于平稳,语音市场仍具有较大发展空间。 https://p0.itc.cn/images01/20210413/4e1f984f2cb3421d955cee2d4ff0b6ee.png 随着AI技术与各领域场景的深度融合,2020年人工智能产业进入行业应用落地的重要阶段,也给国内智能语音产业带来广阔的市场空间,大批国内外巨头争相抢占,形成了全新的智能语音产业格局。 作为国内领先的人工智能语音交互与数据服务提供商,自成立以来,标贝科技始终坚持以“语音连接场景、数据服务技术“为理念,基于先进的AI语音技术及海量的语音数据,打造了多领域覆盖的AI语音交互方案及产品,经过多年的行业实践应用,广受重视和好评。 据此次亿欧智库发布的行业图谱显示,标贝科技凭借成熟的智能客服解决方案成为电商领域代表企业之一。 https://p7.itc.cn/images01/20210413/2339c97c91b44b139caa071550142b2f.png 随着互联网及AI技术不断发展,人工智能正在快速与客服中心进行深度融合。如何借助AI技术来化解客服中心长期存在的服务压力和运营成本困境,提升整体服务能力与效益,已经成为了电商行业的关注重点。基于此,标贝科技以领先的AI语音技术为核心驱动力,打造优质的智能化语音应用解决方案,助力电商行业有效提高服务效率,降低获客成本。 针对智能客服场景,标贝科技推出覆盖在线客服、语音质检、智能外呼等场景解决方案,将语音合成、语音识别、NLP等AI技术与客服业务进行深入融合,在客服与客户沟通的过程中,提供实时语音导航、质检分析、自动外呼、销售辅助等服务,有效提升客服坐席人员的工作效率与服务质量。 凭借强大的技术优势,标贝科技智能客服解决方案在多个行业得到落地应用,并获得众多用户的信赖与认可。截至目前,标贝科技已经为腾讯、信雅达、恒生、竹间、容联、天润、百应等大型重点客服需求厂商提供服务。 此外,在语音技术方案方面,标贝科技还推出了包括通用语音合成方案和声音复刻、情感合成等个性化语音方案,让声音富有情感表现力,充分匹配有声阅读、AI教育场景的应用需求。同时,基于语音场景和客户需求的不断深入,标贝还创新推出声音转换、AI歌曲合成等在内的语音延展技术开发,在虚拟偶像、短视频等方面有巨大的市场应用空间。 未来,随着人工智能应用的普及以及基础设施成熟,智能语音市场将迎来新一轮的迅猛发展阶段。标贝科技将继续深耕智能语音交互领域,加大技术创新投入,为行业伙伴打造更加优质的语音场景方案及产品。 原文章作者:标贝科技,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    最后回复 祖饺 2021-12-22 10:41
    2272 0
  • 海尔智家全屋感知决策系统和智能物联语音模组双双入围 ...
    近日,家电与消费电子领域最具影响力和公信力的AWE艾普兰奖入围结果公布,海尔智家语音平台的全屋智能感知决策系统和智能物联语音模组云智01双双入围2021年艾普兰智能科技奖。凭借行业领先的全屋分布式语音交互技术和多方共创资源优势,海尔智家语音平台实现了智能语音行业的绝对引领。 智能感知、主动服务,海尔智慧家庭语音场景率先进入3.0时代 海尔全屋智能感知决策系统是一套全屋智能系统解决方案,其以感知功能为核心,通过构建的智能家居多渠道知识图谱体系、富生态智能体系以及多模态AI交互等,实现智能化的推理决策、反馈控制及自主控制。通过科大讯飞、全志科技、腾讯、喜马拉雅等多个生态方资源共创,海尔全屋智能感知决策系统实现了全屋分布式语音交互,率先带领行业进入智能感知、主动服务的家庭语音场景阶段。 在家庭语音场景的1.0时代,用户只能通过单向指令控制家电,实现简单的开关、模式转换等操作。而随着用户交互需求的增加,智慧家庭进入分布式交互、连续对话和多场景定制的2.0时代,用户可根据个人习惯实现多设备的联动操作。而如今,智能家电不再只是“听从者”,而成为“指挥者”——“小优小优,我要出门了”“好的。热水器还开着,需要我给你关掉吗”,进入智慧家庭主动服务3.0时代的智能家居设备拥有了能够自主决策的智慧云脑,在智能感知设备和用户的基础上进行分析判断、自主决策、执行功能。 https://p6.itc.cn/images01/20210127/70860576bfcb4552a5383bd3b566c043.jpeg 目前,智能家居行业以感知功能为基础实现的主动服务大多局限于感知人的特征,而在海尔智慧家庭中,除了感知用户身份、使用习惯和个人喜好等,拥有主动服务能力的智能家居设备还能够感知设备运行状态和温度、湿度、有害气体等环境因素。例如,通过感知用户特征,海尔热水器可以根据用户习惯在不同的季节为家庭成员提供不同的洗浴场景,在洗浴结束后主动调整客厅空调温度,呵护家人健康;通过感知设备状态,海尔智能家电可以判断自身故障,主动上传故障信息到终端及云端,再依据庞大的知识图谱、产品信息、售后信息以及设备状态等判断故障状态,自检自修或者通知售后管理平台,大大提升了用户的售后体验;而通过感知环境因素,海尔智能洗衣机会结合天气状况,建议室内/室外晾晒衣物,联动晾衣架等网器设备,还能综合感知季节、海拔、天气等判断空调是否需要开启、设置适宜温度等。 应用产品获国家实验室5A认证,海尔智能物联语音模组让家电能听、会说、会思考 本次入围艾普兰智能科技奖的海尔智能物联语音模组云智01,是针对海尔智家设备定制的一款多协议智能物联及离在线语音交互综合解决方案,该方案基于海尔智家平台技术规范,匹配海尔智家AI+IOT平台,支持用户通过自然语言交互的方式实现网器的相关控制及云端资源内容服务,支持语音的全双工交互模式和上下文语义理解等。海尔智能物联语音模组联合科大讯飞深度定制拾音降噪算法,并采用双麦语音阵列,可实现3-5米远场交互,支持接入云端资源内容、方言识别、分布式语音、离在线交互,可在线升级,并且具备生活防水能力,应用可实施性广泛,多种方案组合可选,满足用户与网器语音交互的场景需求以及设备间智慧物联功能。 海尔智能物联语音模组目前已应用在无屏语音冰箱、空调、洗衣机、热水器、生活家电等全系产品上,应用产品已获得语音交互国家实验室5A认证,真正实现了让每一台家电“能听、会说、会思考”。 https://p8.itc.cn/images01/20210127/6e8a29882e1d476eb64a15d15f73713c.jpeg 自创立以来,海尔智家语音平台积极承接三翼鸟智慧语音场景战略,探索并引领智慧家庭全场景语音交互解决方案的同时,联合多方资源为智能语音行业的健康发展提供了技术规范和模范样板。2020年8月,海尔智家语音平台联合中国家电研究院、科大讯飞等主导制定了行业首个《智慧家庭全屋分布式语音交互规范》,解决了智慧家庭多物理空间、多语音设备的语音交互难题,填补了行业标准的空白。12月,海尔智家全屋分布式语音交互系列产品通过中国家用电器研究院检测认证,成为行业首家通过全屋分布式语音交互标准认证的产品,实现了行业零突破。未来,海尔智家语音平台还将坚持技术创新迭代与创新,带领智能家居行业实现由单品智能向全屋智能的飞跃,为更多智慧家庭提供明朗与美好的智慧生活。 原文章作者:科技狗网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    3412 6
  • 国内儿童陪伴机器人品牌盘点
    http://5b0988e595225.cdn.sohucs.com/images/20190217/cdc0cf38cb3f4345af4b6dbabd730ef7.png 目前新生儿的父母绝大多数是80、90后的年轻人,这些年轻的父母不仅背负了更多的生活压力,而且更加注重孩子的教育。在时间和金钱都有限的情况下,早教机器人、儿童陪伴机器人基本符合这些父母的需求,这给主打场景式陪伴的儿童陪伴机器人创造了不小的市场。虽然儿童陪伴机器人不可能代替“人”来陪伴孩子长大,也不可能完全替代家长完成辅助教育,但它的确是目前比较符合要求市场的产品。而且随着人工智能技术日渐成熟,儿童陪伴机器人也一定存在着巨大的进步空间。 小编盘点了国内主流的儿童陪伴机器人品牌,以供参考。 智伴 广州智伴人工智能科技有限公司是一家集研发、生产及销售于一体的儿童智能机器人公司。智伴科技依托成熟的中美研发团队,致力发展为儿童机器人行业的领导者。目前智伴科技已成功推出智伴1S儿童机器人(APP版)、智伴1S儿童机器人(微信版)。智伴1S自2016年12月推出以来,其呆萌的外形及海量的早教资源广受家长与孩子的喜爱,成为儿童智能机器人明星产品。 阿尔法蛋 阿尔法蛋机器人,是由科大讯飞旗下合肥淘云科技有限公司倾力打造的一款教育陪伴智能机器人。集成教育内容、超级电视、视频通话、智能音箱和自然语交互机器人的阿尔法蛋是一款功能聚合的机器人,功能与服务面向家庭所有成员。阿尔法蛋智能机器人基于科大讯飞人工智能技术,搭载讯飞淘云TY OS智能系统,拥有“类人脑”,其理解能力、表达能力、智商都会随着深度自我学习。 布丁 北京儒博科技有限公司秉承「有教无类,爱无差等」的核心价值观,坚持用户第一的经营理念。在国家倡导人工智能产业化的大环境下,儒博以人工智能前沿技术和优势教育资源为抓手,以智能教育机器人为平台,率先研发出“陪伴式家庭AI老师”系列教学内容,成为中国人工智能教育产业的“智造者”和开创者。儒博的布丁AI老师,提供沉浸式互动教学和陪伴游艺。 小鱼在家 北京小鱼儿网络科技有限公司,母公司AiNemo Inc,成立于2014年3月,是一家致力于打造智能家庭硬件终端和服务的科技创新型企业。小鱼在家的产品涵盖智能家庭硬件终端、智能家庭操作系统、IoT产品,以及人工智能应用与服务。小鱼在家拥有国际领先的自主人工智能技术和研发实力,是百度最重要的人工智能战略合作伙伴之一。产品搭载最新百度对话式人工智能操作系统DuerOS,在语音交互、人脸识别、影音播放等领域均达到业界顶尖水平,是联通唯一家庭智能终端战略合作伙伴。 360儿童机器人 奇虎360科技有限公司,是中国领先的互联网和手机安全产品及服务供应商。据第三方统计,按照用户数量计算,360是中国领先的互联网安全公司,用户6亿,市场渗透率96.6%;中国领先的移动互联网安全公司,用户数近8亿,市场渗透率近70%;中国领先的浏览器公司之一,活跃用户达到4亿,渗透率超过70%。 YEXBOT YEXBOT总部位于深圳,在上海设有研发,营销中心与中国科学院深圳先进技术研究院、北京清华大学机器人实验室,成都电子科技大学上海复旦智慧城市研究中心等单位深度合作,专业从事智能机器人研发、生产、销售、服务为一体的高科技企业。在智能机器人领域长期深耕技术,公司以开发研究智能机器人为主要发展方向融合物联网、移动互联和机器人技术,针对市场需求开发用于智能家庭、商用服务健康管理等机器人产品,同时提供个性化,行业机器人定制服务。 好儿优 上海元趣信息技术有限公司是一家高科技创新公司,拥有深度智能的语音和语义理解等核心专利技术,专注于推动人工智能领域的科技进步与发展,推动人机交互技术在儿童教育与陪护这一垂直领域产品化的新型探索,致力于以拟脑技术为儿童长大提供保障。 小忆机器人 小忆机器人是由360生态链成员金刚蚁公司出品。小忆机器人第一代超能萌宝系列,专为3~8岁的儿童设计。小忆主要有如下四大功能:全自然语音对话,可以通过语音与小忆聊天、让小忆唱歌、讲故事、跳舞等,而且这并不耽误小忆的“听力”,所以可对其随意打断,交流更顺畅;可以拍照、录像,主动捕捉生活中的精彩瞬间,然后在云端会把图片及视频素材进行加工,并推送给家长;可视频通话,随时随地跟家人沟通,支持语音呼叫;互动教育。 优必选 深圳市优必选科技有限公司,优必选成立于2012年,是一家集人工智能和人形机器人研发、平台软件开发运用及产品销售为一体的全球性高科技企业。2008年,优必选从人形机器人的核心源动力伺服舵机研发起步,逐步推出了消费级人形机器人Alpha系列、STEM教育智能编程机器人Jimu和智能云平台商用服务机器人Cruzr等多款产品。 巴巴腾 深圳市鑫益嘉科技股份有限公司是一家集研发、生产、销售和服务为一体的高科技上市企业,荣获国家高新技术企业称号。公司致力于互联网+智能产品的科技创新,旗下拥有“巴巴腾”、“华影”两大品牌。巴巴腾专注于儿童智能产品领域;华影则专注于成人智能产品领域。两大品牌构建和完善了鑫益嘉公司智能产品的产业链。 鲁奇亚 深圳金童心科技有限公司——儿童益智早教玩具行业新锐企业。公司位于中国智能电子玩具研发中心 深圳,秉承“价值,创新,速度”的企业理念,立志为千千万万幸福家庭提供技术创新、概念领先、高品质、高性价比的优质精品。鲁奇亚为“深圳市金童心科技有限公司”拥有的儿童早教系列产品品牌。致力于将“鲁奇亚”打造成儿童早教学习玩具、用具领先品牌。 艾尔仑 深圳市沃尔仑科技有限公司成立于2011年,是一家专业的电子数码产品研发,生产销售为一体的高科技型企业。公司主要涉足智能穿戴和运动电子产品,智能机器人,智能手表,智能手环;具有强大的研发,生产和销售能力,在深圳具有大型专业生产基地以及全球销售网络。目前公司积极与各大专院校,科研院所建立了广泛的科学技术与交流合作,不断开发出适合市场需求的高新产品。 麦咭 麦咭智能机器人搭载了讯飞淘云的类人脑TYOS系统,集微聊互动、电视互动、中英互译、云端百科和好习惯培养于一体,通过wifi互联,可以与手机端进行实时语音微聊,并能帮助家长从小培养孩子良好生活学习习惯,实现与金鹰卡通卫视所播出的节目进行实时互动。以语言识别、语义理解、云端计算、天数据等人工智能技术为基础,配合有价值的内容资源,为儿童长大提供所需资源,满足儿童长大过程中的多种需求。 未来小七 未来小七是一款专注于儿童教育的智能陪伴机器人,遵循“为爱而生”的理念,采用人工智能云平台,通过智能语音识别实现人机交互行为,实现与孩子较为逼真的情感交流互动。同时集娱乐陪伴、教育启蒙、行为引导等功能于一体,在带给孩子暖心陪伴的同时,引导孩子愉快学习、健康长大。 小哈智能机器人 慧昱科教以实现教育资源公平化和高效化为企业目标,通过“智能硬件+智能耗材+内容平台”这种新兴交互方式,深度结合“物联网+大数据+人工智能”生态,致力为每一个孩子提供全中国乃至全球最优质的教育资源共享服务,是市面上唯一一家以教育内容为核心,以自有研发的软件和机器人硬件为载体,搭配课程内容及实物教具销售的国家高新技术企业。小哈AR智能教育机器人是深圳慧昱教育科技有限公司于2017年推出的全球首款AR智能教育机器人,拥有强大的北师大内容研发团队及富士康智能化生产线。 小武儿童机器人 深圳市寒武纪智能科技有限公司成立于2015年,是家专业从事人工智能服务机器人研发生产和销售的高新技术企业也是江苏悦达集团族下新兴产业控股子公司。寒武纪智能以机器人视觉和运动核心,先后推出了儿童陪伴教育机器人小武人工智能STEAM教育机器人HandiBlox系列和模块化商用服务机器人等多款产品。其中,HandiBlox依托于寒武纪强大的研发实力,将K12编程教育与AI技术相结合,致力于为K12人工智能编程教育领域提供站式解决方案,建立全球STEAM少儿混合编程教育领导品牌。 公子小白 Gowild(深圳狗尾草智能科技有限公司)由若干位连续创业者、全球AI专家及业界知名企业高管创办。Gowild专注于人工智能技术研究,并透过AI虚拟生命技术链接个人、家庭与社会,已成功打造基于Gowild AI Virtual life Engine (GAVE技术)的系列AI虚拟生命生态产品,如HE琥珀系列及公子小白等,并将继续透过泛娱乐及IP化运作,让这个时代的人们即可拥有来自未来的黑科技产品。 小西 深圳小西科技有限公司,是一家专注于儿童教育的科技公司,成立于2015年。小西科技已成功推出小西儿童机器人、小西镜、绘本精灵和拼我学习积木等产品。小西科技将始终如一专注儿童领域的软件、硬件和教育内容的开发,构建全方位的儿童智能生态系统,延续寓教于乐的产品理念,在整个产品设计和研发当中继续秉持“要有爱心,更有耐心”的创业态度,以爱之名,从心出发。目前,小西科技已经获得数十项知识产权授权,包括发明、外观及结构专利、商标、版权和软件著作权等。 启蒙号 “启蒙号”是杰哈思文化创意(杭州)有限公司旗下的品牌,专注2-12岁儿童启蒙益智产品的开发,是启蒙启智、教具的品牌,“启蒙号”是刘从江先生又一次以一个六岁孩子父亲的角色,携黑科技而来,作为一个直在事业 上进步的父亲,却从未缺席孩子的长大,这,就是爱与智慧共同的力量!我们希望通过启蒙号能帮助更多的父母培养出具有优秀品质和技能、爱学习、爱思考的孩子。 智力快车 深圳市九州游科技有限公司是一家集技术研发、品牌运营、产品销售及服务于一体的高科技企业,公司坐落于全球电子信息科技的前沿之都——深圳市。从成立至今,公司一直坚持“创新科技、精工品质、贴心服务”的经营理念,致力于为客户和用户创造价值,提供更好的体验。公司本着“诚信务实、精益求精、用户至上”宗旨,严格按照现代化企业的模式进行生产、管理和运营。智力快车一直沉浸于儿童教育、益智玩具、智能设备行业多年,公司研发生产的智能手表、早教机、学习机等产品一经面市即获广泛好评。 嘟嘟 安徽合肥义川智能科技有限公司推出了最新一代儿童智能情感教育陪护机器人——“嘟嘟机器人”。情感上,让孩子多一个陪护与倾述的好玩伴,让各种原因不能常伴孩子身边的父母,补偿孩子缺少的部分父爱和母爱,通过嘟嘟机器人可以让父母走进孩子的内心世界、了解孩子内心真实的想法,架起孩子与父母之间沟通的桥梁;教育上,以“AI+教育”的形式打造智能教育平台,真正的一对一家教,寓教与学,激发孩子的想象力、创造力。 Ibotn ibotn(爱蹦)幼儿陪伴机器人,是一款既能充当妈妈的助手,帮助妈妈实现宝宝不离视线的看护,又能时刻陪伴在幼儿身旁,记录宝宝长大点滴的智能机器人。ibotn爱蹦幼儿陪伴机器人面向0-3岁的婴幼儿。ibotn(爱蹦)属于深圳市鼎盛智能科技有限公司旗下高端品牌,深圳市鼎盛智能科技有限公司致力于成为全球领先的家用智能服务机器人提供商(含幼儿陪伴机器人、老人看护机器人、家庭厨房机器人、家庭防卫机器人),打造一个家庭服务平台生态圈。 小漫在家 小漫在家智能机器人搭载了全球先进的语音技术,以及课本识别技术,几乎囊括了国内所有正规教育出版社的内容。可以随着孩子的知识阶段和学龄增长,解决不同的知识问题与难点。小漫在家是一家专注于智能教育机器人研发的公司,以领先的技术实力和设计水平,打造国内最先进的技术,为客户提供语音对话、智能交互和智能教育应用为一体的创新高级机器人。 小帅 远威润德(武汉)网络科技有限公司于2017年12月注册成立,以给孩子更好的教育为使命,以建立完美贴合孩子学习生活的新型教育模式为目标。目前,远威公司与中国海尔达成战略合作协议,成为海尔施特劳斯净智饮水、海尔智能家居、智能家电的平台运营企业,具备开发、生产、销售于一体的服务能力,为各大行业、领域客户从线上、线下等多维渠道提供强大、专业的供应服务。同时在各大电商平台积极开展业务。未来,公司将不断扩大各领域的品牌合作规模,建立个性需求的快速响应机制,提供产品定制服务。 启迪 启迪机器人成立于2015年,是集研发生产和教育应用于一体的高新技术企业。启迪机器人技术团队汇集了中科院自动化所等国内顶尖人工智能专家,以及十年以上硬件产品经验的软硬件团队。目前,启迪机器人旗下已有Mars Room、Mars Hero、Mars Cloud 三大知名品牌,并在深圳、南京、无锡、大连、芜湖等地投资成立控股公司。 乐源 深圳市乐源实业股份有限公司成立于2009年3月,公司拥有国家高新技术企业、广工大机器人联合研发实验室、广东省工程技术中心等多项资质。公司以“带给全球儿童一个愉快的童年”为使命,致力于儿童智能产品研发,儿童原创内容制作,儿童数字化内容平台运营,为孩子的身心健康发展、素质教育发展保驾护航。 好帅 好帅机器人是荣事达荣电集团倾力打造的智能云教育机器人,好帅充分满足父母“不让孩子输在起跑线上”的刚需。好帅系列智能机器人宫嗯那个涵盖智能教育,智能陪伴,智能家居等方面。解决孩子和家长的教育,关爱,陪护需求,拥有儿童智能语音系统,儿童愉快教育系统,社交情感交流系统,数据分析成脏系统,萌宝说说参与系统,帮助孩子健康愉快学习长大。 原文章作者:氖星智能,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    最后回复 乡赏 2021-12-21 23:14
    2951 0
  • 小鹏发布“鹏友+”用户运营体系,何小鹏说的运营到底是什么 ...
    一年前,小鹏汽车首款量产车型在郑州海马工厂正式亮相,抢跑了去年年底造车新势力企业量产大潮;一年后,这款被赋予了太多意义的车型G3终于站在了市场化的门口,焦虑、紧张,但更多的是即将征战沙场的兴奋。 用一年多的时间对成品进行打磨雕琢,在求快的造车新势力企业中,小鹏汽车是特例。早在今年年初的CES展上,小鹏G3便在国际舞台上亮相,随后又在今年四月完成了国内市场的亮相。经过后续多轮亮相解析,消费者对这款产品已经非常熟悉。 http://5b0988e595225.cdn.sohucs.com/images/20181117/75ef4fd2cb684bba9891a2eebfca1946.png 终于,在广州车展上,小鹏汽车公布了这款产品的上市日期——12月12日。在2019年春节之前,首批G3将优先交付给内部员工和部分城市用户,到2019年3月,G3将在多个城市实现规模交付。 http://5b0988e595225.cdn.sohucs.com/images/20181117/ec7c1558ea12424883a57f50ecd315fa.png 360°车顶相机构建趣味用车场景 届时,消费者将通过 http://m3.auto.itc.cn/c_zoom,w_28,h_21/logo/brand/450.png G3(参数|图片)感受到汽车产品划时代的变革。众所周知,新能源与智能网联的发展正在从根本上改变汽车产业的行进脚步。2018年,这种趋势尤为明显,无论是年初发布的《智能汽车创新发展战略(征求意见稿)》还是各大车企发布的智能网联战略,都直指一个目标——拥抱智能网联时代。而小鹏汽车作为造车新势力企业的代表,早早地以产品突围智能网联。 从外观上看,G3采用一体式鲨鱼前脸,删繁就简,没有任何多余的线条,一条线贯穿前脸,使前脸视觉上更加宽阔,去除了传统的前格栅造型,使其更加的电动化。 G3的内饰则营造出极具未来感的车内氛围。G3是首款采用“太空座舱”的互联网汽车,配备了圣戈班品牌1.889m全景式前挡风玻璃、15.6英寸悬浮触控屏、12.3英寸全液晶仪表盘,超大视野、全新驾乘感受,极具科技感。 极简的外观和富有科技感的内饰虽然极为抓人眼球,但这些都不是重点。作为一款拥抱智能网联时代的产品,智能人机交互才是小鹏汽车G3的看点。 G3的智能人机交互可实现手机远程控制、智能语音交互、360°车顶相机远程启动。 在所有车型都以智能语音交互为卖点的前提下,小鹏汽车的智能语音交互系统针对如今用户反应的痛点,拟人、快速、准确地为用户提供服务。 据介绍,小鹏G3的智能语音交互系统能做到“能听、会说、懂你”式的智能人机交互,并拥有超越智能手机的速度,使用起来得心应手。用户可以通过智能语音交互系统控制导航、车辆控制、自动泊车、拨打电话、播放音乐、控制摄像头、控制空调、语音聊天等,语音指令可覆盖车内几乎所有的功能模块。 http://5b0988e595225.cdn.sohucs.com/images/20181117/743f9d29a52343cabb8f79109d265f52.png 车顶的360°的相机更是小鹏G3与众不同之处。G3是全球首创在汽车上应用车顶摄像头系统带远程启动功能,车顶配备一个高清1080P的车顶摄像头,通过车内大屏及手机可以开启车顶摄像头,可进行350°旋转,实现360°录像或拍照,实时对车内车外环境进行拍照、录像、行车记录和监控等功能。 有了360°车顶相机,未来小鹏G3的用车场景将是丰富而有趣的。尽可能展开想象:用户可以通过车载Wi-Fi即刻与家人朋友分享路途所见所闻;可通过车顶摄像头系统随时随地记录车内外高清画面;开启车顶摄像头后,用户站在车外车顶摄像的影像范围内,摆出特定的手势后车顶摄像头会进行拍照…… 强大运营体系终结里程焦虑 随着G3产品进入到市场化阶段,小鹏汽车一系列的用户运营体系工作也随之展开。在车展现场,小鹏汽车发布了“鹏友+”计划,表明其包括充电网络、销售/售后布局、金融服务在内的用户运营体系全面就绪。 http://5b0988e595225.cdn.sohucs.com/images/20181117/bd2db1cc19c445158ab15cc0bc7d2b44.png “鹏友+”计划从用户购车开始贯穿用户用车的全生命周期,在人员组织和资金上重兵投入体系建设,在用户关键触点上推动创新,旨在为用户提供“鹏友”般的品质服务。“鹏友+“计划目前已全面启动,2018年年底将在北上广深杭等重要城市完成落地,并在未来3年逐步发力扩展。 小鹏汽车是国内唯一自营超级充电桩的整车厂,以有效解决智能电动车用户的里程焦虑。2018年,小鹏汽车在北、上、广、深、杭等十多个一二线城市签约了一百个超级充电站,2019年春节前将投入使用30座超级充电站;公司已接入近10万个第三方充电桩,基本覆盖全国主要核心城市和道路。未来三年,小鹏汽车还将签约一千座超充站、开发一万个专用桩、接入十万个第三方充电桩。 对于“鹏友们”来讲,小鹏汽车所打造的覆盖全国的充电网络无疑是购车后获得良好用车体验的福音。这也是小鹏汽车一直坚持的“智能汽车制造是基础,核心在运营”的造车理念,力求为用户打造超乎想象的用车体验。 此前,小鹏汽车董事长何小鹏表示:“智能汽车的功能已经从单纯的汽车功能升级到服务功能,因而,汽车厂商更应该注重软硬件的协同运营。” 这一点,也被落实到小鹏汽车的销售以及售后服务体系上。小鹏汽车的销售、售后服务体系分为线上和线下两部分:在线上,汽车之家车商城、天猫旗舰店已经开业,还计划逐步与国内主流电商平台合作;小鹏汽车APP全新改版,可以实现线上订车;在线下,2018年将开拓20+家线下销售店,明年将在超过20个城市开近100家体验门店。 http://5b0988e595225.cdn.sohucs.com/images/20181117/671aad635f364e02be9b00d985f36265.png此外,小鹏汽车为消费者提供贴心的金融服务。为了缓解用户购车资金压力,小鹏汽车为用户提供了一套省心省力的金融方案。通过和多家金融机构展开战略合作,包括中国银行、招商银行、太平洋保险、安盛天平保险,为用户提供定制灵活、智能便捷、值得信赖的融资计划,以及精选保险套餐,让购车过程省心又省力。 小鹏汽车“鹏友+”计划的落地,全面诠释了何小鹏所提出的“智能汽车制造是基础,核心在运营”的理念。这是一种超前意识,未来在智能网联车型霸屏车市的时代下,全方位、周到的用户体验是同等于甚至高于车型颜值、性能的购车刚需。 值得期待的是,有着“鹏友+”计划的保驾护航,小鹏G3正式进入消费市场后,将为消费者带来全新的购车体验,同时也将重新定义汽车市场的销售规则。 【版权声明】本文为汽车头条原创文章 原文章作者:汽车头条APP,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    3166 0
  • 如何打造自然的人机交互体验?
    “ 计算机诞生之日起,人机交互的问题就一直限制着我们。从纸带打孔到命令行、从键盘鼠标到图像界面、从触控屏幕到语音输入,人机交互的方式正在变得越来越友好自然。 语音技术本身在基础算法、应用场景、交互体验等方面也经历了诸多进化,到今天已经可以实现全双工的上下文连续交互了。 那么如何打造自然的人机交互体验呢?我们特此邀请到国内最大的人工智能技术平台——科大讯飞开放平台技术总监汪舰老师做直播分享。 http://5b0988e595225.cdn.sohucs.com/images/20171206/1a8279a96020437eac5b6a28d8a117c8.jpeg 科大讯飞开放平台技术总监·汪舰 分享主题 如何打造自然的人机交互体验? 分享主要从以下三个方面展开: 讯飞开放平台语音相关技术介绍,包括语音识别(HMM模型原理介绍)、语音合成、语音唤醒等。 解析一下讯飞全双工的上下文连续交互的原理和架构介绍。 智能语音交互项目落地的一些经验和总结。 面向对象 开发者、大数据工程师、云计算工程师、架构师等。 直播地点 51CTO 开发者 QQ 交流群:114915964 直播时间 2017.12.13 16:00-17:00(PS:预计讲解用时 45 分钟,然后 15 分钟 QA 互动环节。) 直播形式 图文结合,讲解结束统一提问。 直播专家 特邀专家 科大讯飞开放平台技术总监 汪舰 专家简介 毕业于中国科学技术大学,江湖人称“水哥”。加入公司以来,参与讯飞开放平台语音识别、语音合成及语音唤醒等多项核心产品研发。现负责开放平台整体业务技术工作,协助上百家公司进行产品研发和项目落地。 欢迎有需求的 IT 技术人员扫描加群学习 原文章作者:51cto博客.,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    最后回复 躬甍 2021-12-21 15:15
    2724 0
  • 评喵驾车盒:功能炸裂 体验一流
    http://5b0988e595225.cdn.sohucs.com/images/20190626/ae6f935c1075477d9253da70050255cd.png 喵驾车盒基于“与原车系统完美融合”,为车主量身研发了一系列安全与娱乐兼具的功能。它能够将手机无缝连接到汽车,无损升级原车中控系统,从而开启强大的智能娱乐驾驶体验。下面从6个方面品鉴喵驾车盒,为您扫盲。 1,硬件设计美观吗? 2,连接使用简单吗? 3,适配车型有哪些? 4,AI语音控制给力吗? 5,实时导航有多强? 6,哪个功能最硬核? 一、硬件设计美观吗? http://5b0988e595225.cdn.sohucs.com/images/20190626/76760156ceb74080a9f40a20e406df2f.png 群众的眼睛是雪亮的!喵驾车盒突破了“水杯、灭蚊灯”等日常生活用品的视觉束缚,在黑色钢琴烤漆工艺的加持下,点缀象征科技的蓝色呼吸灯,简约时尚,赏心悦目。产品非常轻盈,拿在手上轻过手机,放在车上扶手箱,不占空间。 二、连接使用简单吗? 喵驾车盒主打“隐藏式安装”,即插即用,无需额外走线,不损原车一丝一毫。只需将喵驾车盒对插原车U口,再通过无线连接手机网络,即可在原车屏上开启“高配版智能中控系统”。在实际体验中,流畅无卡顿或延迟现象。 http://5b0988e595225.cdn.sohucs.com/images/20190626/dd9b5f7f6f5b48f3bd2a8d6c00a32de1.png 三、适配车型有哪些? 为避免扫了大家的雅兴,特意在此声明:喵驾车盒有门槛,目前面世的仅有奥迪和奔驰专享版,几乎适配奥迪和奔驰所有新老车型。总之,走的是高端路线。各位不是奥迪、奔驰的老板,可以现在先去买辆车回来,然后我们继续往下聊。 http://5b0988e595225.cdn.sohucs.com/images/20190626/75cac75f45554b80ac8cc1de703ed1c3.png 四、AI语音控制给力吗? 未来是声控的时代。现在,但凡没有一技AI傍身,都不好意思自诩为“科技产品”。喵驾车盒也将“AI语音交互”功能作为官方主打亮点之一。 在车上,开启喵驾的语音交互后,无论你是想开启导航去哪儿,还是想听一首音乐打发寂寞,抑或发个微信给好友、听凯叔讲故事、纯粹聊聊天等,所有操作,通过你的一句话就能实现。 喵驾车盒自主研发的AI语音交互拥有一套独立的“全车AI语音精准识别系统”,无论你身处车厢的哪个位置,都能清晰地接收语音。喵驾研发的独家声纹识别技术,可以通过识别车主本人的声音特征,来避免他人声音干扰。系统预置了众多免唤醒指令,覆盖所有高频应用,让这套语音控制系统更加强大。 http://5b0988e595225.cdn.sohucs.com/images/20190626/7534f7e1f22c46959963e666b215410f.png 五、实时导航有多强? http://5b0988e595225.cdn.sohucs.com/images/20190626/696cbad80bd84f7aad179e56935013e5.png 我可以很负责任地说:有了喵驾车盒,你和手机支架彻底告别吧!作为一部豪车,开车还用手机支架,一路盯着手机导航,尊严何在? 连接喵驾车盒后,即可在原车屏上开启实时导航,地图在线更新,路况数据精准,充分满足了我们自驾出行场景下的各类导航需求。相比手机导航,原车屏秒变大屏导航,不仅视野开阔,还可以语音控制,无需低头看手机,无需手动搜索目的地等操作,安全可靠,体验一流。 六、哪个功能最硬核? http://5b0988e595225.cdn.sohucs.com/images/20190626/d8b9f227a55d48e48e0eebf959a61443.png 目前,喵驾车盒拥有九大功能,除了前面的AI语音交互、实时导航,还有语音微信助手、4K视频投放、手机投屏、音频同步、个性电台、车友歌单、位置共享,覆盖多个驾驶出行场景。受篇幅所限,不再逐一介绍。根据现场体验,最让人震撼的就是“视频投放”功能,将原车屏幕画质发挥得淋漓尽致。 http://5b0988e595225.cdn.sohucs.com/images/20190626/85a6d0bee9d24cf586c527f2c2adc591.png 喵驾车盒视频投放特别适合长途自驾使用,可供副驾驶和后座的家人在原车屏上追热剧、看动画、观大片,开启名副其实的“移动家庭影院”。如果你是游戏爱好者,手机投屏可以让你在原车屏上体验“吃鸡开黑”…… http://5b0988e595225.cdn.sohucs.com/images/20190626/818c12faaf11424c9e2307a6992cd353.png ◆ 总结:作为一款面向奥迪、奔驰等豪车级的车载娱乐黑科技,喵驾车盒已足够惊艳。如果能够针对中低端的大众化车型推出相应版本,让更多的车主、用户能够体验到智能化的驾驶娱乐,会不会更加炫酷呢??

    原文章作者:喵驾,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    最后回复 房榕 2021-12-21 11:07
    1551 0
  • 全新荣威RX5 PLUS上市 15万元就能搞定高配 AI语音交互是 ...
    10-15万元往往是普通家庭购车的首选预算范围,在这一范围内诞生了许多优秀的车型,荣威RX5 PLUS在市场上的表现非常活跃,月销超过5000台是家常便饭。而在7月6日晚间,《最强大脑荣威发布会特别篇》上,全新荣威RX5 PLUS正式上市,指导价10.38-13.98万元,目前有官方补贴,补贴后的售价9.88-13.48万元。同时购车政策当中的终身免费基础保养、终身原厂整车质保、终身免费基础流量,这几项免费政策非常有吸引力。 https://p9.itc.cn/images01/20210709/b1a725e2ec94497e8aa4cc2f080185a8.jpeg 荣威代言人龚俊,“教授品鉴团”成员薛兆丰、姜振宇、叫兽易小星,“大众观察团”成员猴哥、痞幼来到晚会现场。其中有一个环节非常有意思,最强大脑“烧脑侠”在和荣威RX5 PLUS的对阵中竟然败下阵来,原因在于一句四川话,荣威RX5 PLUS的语音交互系统内置了四川话,甚至能说出四川当地方言的绕口令,这让在场的大部分媒体都吃了一惊。 https://p0.itc.cn/images01/20210709/60243c9852594020b8f44d5258f756f5.jpeg 全新荣威RX5 PLUS搭载了维纳斯智能系统,在这一系统支持下,新车可实现90秒全双工AI语音交互。简单来说就是一次唤醒,就能在90秒的时间内连续对话,不必像以往的语音助手那样每一个指令都需要重新唤醒,除了普通话以外加入了四川话的支持,相信此后越来越多的方言也将会加入系统内。语音交互的作用还延伸到了车机内各类APP,甚至不需要动手,就可以下单外卖等。这套系统融入了大数据,可以根据车主的习惯推荐导航路线,覆盖多种场景,另外支持IOT互联互通,手机、汽车、智能家居之间形成互通。 https://p2.itc.cn/images01/20210709/2cb84c93b555442faf05076b05455f56.jpeg 荣威RX5 PLUS定位紧凑型SUV,市场上对这一级别车型的需求非常高。新车在外部细节、内饰、动力系统各方面都有提升。先来看外观部分,前脸的变化如果不细看,还真不知道动了哪儿,但是气场和气质的提升是肉眼可见的。其实就是将下包围调整了,中网格栅和下包围连成一个整体。两侧的雾灯区域向内弯折,有一点像是雷克萨斯那种设计,高级感一下子就起来了。但应该不是抄袭,因为 iMAX8(参数|图片)身上已经有类似的设计了,只不过不太明显。最下方的前唇部分配色很有意思,是一种枪灰色,中央还刻有PERFORMACE的字母,很个性。 https://p1.itc.cn/images01/20210709/46754a02858d40a7a8243c2c179ece2f.jpeg 内饰的变化也很明显,比如全液晶仪表,经过独立后科技感有提升,尺寸达到了12.3英寸,中控屏依然是竖向的14.1英寸曲面大屏,电子挡杆等主要的配置依然在线。新车还有一个很大的变化,就是用了贯穿隐藏式空调出风口,并且配以独特的装饰线贯穿整个中控台,带出了很强的运动感,相比2020款车型更加的现代。隔音降噪方面,新车采用双层夹胶隔音挡风玻璃、前排玻璃和吸声系数达到95%的吸声棉,再加上米其林PS4轮胎,噪音控制很到位。 https://p3.itc.cn/images01/20210709/93e60a42fb6346e1a8d29a7472813119.jpeg 全新荣威 RX5(参数|图片) PLUS将全液晶仪表、中控大屏、泊车雷达、后部辅助影像、全景天窗、无钥匙进入等功能列为全系标配,即使是入门的手动挡车型也能获得不错的用车体验。在高配车型上搭载有ACC全速域自适应巡航、AEB自动紧急刹车、LDW车道偏离预警、FCW前部碰撞预警等组成的智能驾驶辅助系统。对于如今越发复杂的路况,这套系统能有效降低车辆发生事故的几率,特别是驾驶员分心,或者出现特殊天气、视野盲区等特殊情况下人眼观察力不足的时候,避免发生人车损伤。 https://p6.itc.cn/images01/20210709/c8b03c69fd4d484e9e146146fa351946.jpeg 虽然从图片中看不出新车的发动机有什么变化,但是新车更换了“双十佳”上汽全新第二代蓝芯动力总成。参数上,马力数值的增长是硬性条件。排量和进气形式没有变化,依然是1.5T,最大马力从173Ps提升到181Ps,最大扭矩从275N·m提升到285N·m,相应的尾标也变成了330TGI,百公里加速跑进8秒。在传动系统匹配上的变化同样可观,获得“世界十佳变速器”称号的7速湿式双离合变速箱用上了三腔蜂巢科技,这一技术为全球首款,在平顺性和传动效率方面有很大的进步,工信部公布的NEDC百公里综合油耗数字仅为6.9L。 https://p4.itc.cn/images01/20210709/9654df848cd0475d9c8ab2c9974f37ed.png 荣威RX5 PLUS经过几年的沉淀,积累了大量的用户口碑,在智能化革新方面一直是领跑者,此次全新车型上市,在智能化领域有了很大的进步。同时动力、内外设计等多方面有所提升。而且配置售价依然很良心,对于销量的提振想必会有正面积极的作用。 原文章作者:GO车情报员,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    2265 6
  • 语音呼梯神器问世:让电梯更智能
    2020年的新冠肺炎让人们开始空前重视电梯按钮、门把手等公共区域的卫生安全。早在上世纪80年代美国明尼苏达大学的科学家就发现病毒在光滑的不锈钢表面和塑料表面可存活24-48小时,此次新型冠状病毒肺炎,也有证据表明有人通过电梯被传染。牙签、签字笔、一次性手套,各类的按键方式即不环保,也容易损伤电梯部件。 http://5b0988e595225.cdn.sohucs.com/images/20200410/57309c8eb87d47eba34a7ab20e93008e.png 探境科技推出的智能语音电梯方案,可通过语音交互,完成呼梯或楼层登记,全程无接触上下楼,可满足多人乘梯、避免交叉感染病毒的风险。 http://5b0988e595225.cdn.sohucs.com/images/20200410/c239d3d5abf14656976ce5b8acc238a7.JPG http://5b0988e595225.cdn.sohucs.com/images/20200410/3688eb144686496c9e6299031cc72f43.png http://5b0988e595225.cdn.sohucs.com/images/20200410/df1845bab65d4053869f224ca75cd924.png 识别精准算法好 探境科技是国内知名AI芯片公司,拥有先进的语音识别算法。 考虑到实际乘梯环境中电梯机械噪声大、人员密集、多声源,以及轿厢内混响干扰等问题等问题,探境特别针对电梯环境进行了优化,在噪声较大、用户声量较小情况下仍可精准识别。即使用户戴着口罩,或者距离电梯口较远也可实现较好识别效果。 http://5b0988e595225.cdn.sohucs.com/images/20200410/83df1cb33b84418e84f75d6f19e13888.png 在电梯使用过程中,最常用的词汇就是各个楼层的数字,探境针对数字进行了优化训练,对楼层数字识别效果更好,有地方口音仍可实现精准识别。 针对办公楼、高层住宅等公共场所经常出现的多人同时乘坐电梯的情况,探境推出免唤醒多轮对话功能,20S内无需重复激活,一次口令激活可满足多人的语音指令。 一站式梯内外方案 安装简单无改动 探境语音电梯伴侣采用高度集成方案,配件少,同时支持前装和后装市场。对于已有电梯设备,可采用外挂式底座,无需更换电梯轿厢或按键,一根数据线与电梯控制板对接即可,安装简易。 探境语音电梯伴侣支持RS485和CAN总线接口,适用所有电梯品牌。另外,合作伙伴还可根据自身品牌或小区名称订制语音指令,满足个性化需求。 http://5b0988e595225.cdn.sohucs.com/images/20200410/7aa9ecc5556c4e5db6aee321bbc7b918.png 解放双手 防止交叉感染 通过人工智能对话方式搭乘电梯,全程无接触,可以有效遏制交叉感染的发生。 即使未来疫情过去,在实际使用过程中,下楼拿快递,抱孩子等场景,都会存在占用双手的情况,语音识别可以解放双手,让日常生活更高效、更便捷。 不怕遮挡 无须网络 交互自然 张口说话是人类本能,与门卡、二维码、APP、小程序等方式相比,语音是最自然交互方式。 语音识别主要依赖于声波的传输,声波穿透力强,不怕遮挡。而面部识别则受光线、发型等影响,墨镜、帽子、口罩等物品也会影响识别效果。 另外,探境语音电梯伴侣采用的是本地语音识别功能,无需依赖网络信号,通过语音交互完成呼梯或楼层登记。 原文章作者:电梯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    3295 0
  • 升级百度语音交互,全系轻混动力,凯迪拉克xt4售26.17万元起
    凯迪拉克XT4作为品牌明星车型,同时也是凯迪拉克的销量支柱之一。其上市至今已累计销售超16万辆,其中中高配车型占比超过六成,是同级竞品难以忽视的一位对手。12月18日晚,凯迪拉克XT4迎来了年度改款,共推出4款车型,售价26.17-35.47万元。 http://i1.go2yd.com/image.php?url=0ZxDYmi0Mh 在车型命名上,新车对两驱和四驱车型做了命名区分,不会再出现傻傻分不清的情况出现。根据配置的不同,凯迪拉克XT4两驱车型分为风尚型、豪华型和尊贵型,四驱车型则为铂金型。作为顶配车型,铂金型不仅驱动形式独有,还有HUD、车载空气净化系统、感应电动尾门等多种专属配置。所以四款车型的名称、价格和定位更加清晰,更方便消费者做出适合自身需求的选择。 http://i1.go2yd.com/image.php?url=0ZxDYmOnhz 外观方面凯迪拉克XT4的变化并不大,凯迪拉克家族闪电日行灯和全LED直列式飞翼尾灯都是非常经典的设计元素,也很有辨识度。新款凯迪拉克XT4在原有车身色的基础上,新增了“银石灰”和“莫兰棕”两种潮流色,给消费者提供了更多个性化选择。 http://i1.go2yd.com/image.php?url=0ZxDYm0cER 新款XT4虽然内饰变化不大,但车机采用了全新一代凯迪拉克CUE,可实现OTA智能云更新。更重要的是,新车应用了百度智能语音交互系统,并对车机交互界面及车联应用等方面进行了迭代升级。升级后的语音助手支持语音唤醒,并支持自定义唤醒词,智能化表现已领先合资品牌车型。此外,首任车主每年还有100G的免费车载流量,让用户可以无负担的体验移动互联车生活。 http://i1.go2yd.com/image.php?url=0ZxDYmH0f9 动力方面,凯迪拉克XT4原有的2.0T智能可变缸涡轮增压发动机就有着领先同级的动力表现,新款XT4则在此基础上全系标配了48V轻混系统。有了48V电机的辅助,新车可以实现更敏捷的启停,配合9速手自一体变速箱可以实现更平顺的驾驶体验。得益于48V轻混技术的加持,新款XT4的油耗降低了5-6%,在性能与燃油经济性之间实现了更好的平衡。 http://i1.go2yd.com/image.php?url=0ZxDYmlppV 在主动安全方面,铂金型配备了Haptic安全提示震动座椅和全彩HUD显示,进一步保障了行车安全。豪华型和尊贵型则新增了前方碰撞预警、低速自动刹车、车道偏离警告、变道盲区辅助、侧面盲区预警等功能,让更多的用户可以体验到更安心的用车生活。 得益于驾控体验和智能交互方面的优化升级,凯迪拉克XT4的产品竞争力有了进一步提升,这样的美式豪华你心动了吗? 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    最后回复 柞枫 2021-12-21 00:12
    5487 0
  • 凤凰卫视对话Rokid创始人祝铭明:AR,人机交互的终极方式 ...
    人工智能,是最有可能颠覆我们日常生活的技术。它的未来究竟如何演化,又怎么助力智能制造,最终将如何改变我们的生活? 凤凰卫视的《领航者》栏目,推出了人工智能主题的系列视频。 最新播出的一期中,主持人于盈与 Rokid 创始人兼 CEO 祝铭明、优必选科技创始人兼 CEO 周剑、码隆科技联合创始人兼 CEO 黄鼎隆 AI 领域知名创业公司的创业者探讨人工智能技术究竟离我们的生活有多近。 (点击以下收看精彩视频) 祝铭明预测,未来不会再有低头一族,因为数据生活跟现实生活会紧密融合在一起。人工智能会一直演进下去,AR也会成为我们习以为常的交互方式。 以下内容来源于凤凰卫视《领航者》 在离深圳千里之外的杭州,祝铭明创办的 Rokid 专注于语音交互领域的研发和产品,希望通过语音控制,利用人工智能打造一个“懂你”的陪伴型智能家庭机器人。 http://5b0988e595225.cdn.sohucs.com/images/20191206/1b187ebd6bd44532a5a3df7196f793d7.jpeg 智能家庭机器人Rokid Alien 祝铭明坚持说,科技公司要把科技关起来,因为“把科技做出来是一个难度,把科技关起来的难度比它还要高”。 比如说,AR(增强现实)产品其实不少,但有趣的是大家展示的都是一个像未来科技的产品,但实际上,增强现实眼镜它本质上是一副眼镜,怎么样戴着它会更舒服、更漂亮、更自然、更能被接受,这个是他们更关注的问题。 http://5b0988e595225.cdn.sohucs.com/images/20191206/5627499d88d5418fa9cf7197b289b817.jpeg AR眼镜Rokid Glass 祝铭明希望让科技变得有温度,打造更加人性化的产品,因为产品的本质是要质量、时尚跟友好,这样大家才愿意去拥有它,科技只是在背后支撑的东西。 从键盘输入、鼠标,到触摸屏、语音,人和机器的沟通方式,人和机器的关系,正在往更自然、多渠道的方向发展。 祝铭明希望人和机器可以更友好、更自然地进行交互,机器开始懂人类,了解人类的习惯和需求,为我们的生活带来一系列的内容和服务。 http://5b0988e595225.cdn.sohucs.com/images/20191206/9005c0c4c6d7494a8ba8512715d0f4d9.jpeg 《领航者》主持人于盈对话Rokid创始人祝铭明 在移动互联网时代,其实整个社会已经完成了很多基本服务的架构,比如说像出行、订餐,家政服务,他们希望做的就是把这些服务更好地在新的智能产品上做好用户体验跟用户享受。 第一是人工智能能够更简单地让用户去获得这样的服务。第二是人工智能本身能帮助商家更好地提供个性化的服务,比如说订餐的时候,我就知道你喜欢吃什么,或者知道按照你过去的习惯,你今天可能更偏向于哪种食物。 通过语音科技,消费者可以做到,“所想即所得”。语音是人类沟通的最基本方式之一,也是目前人机交互最完备的方式,但绝不是唯一的方式。 http://5b0988e595225.cdn.sohucs.com/images/20191206/c9c90ae517994fa18285a4c4fe3779b9.jpeg AR眼镜Rokid Vision 在未来,人机交互会把语音、视觉、显示都综合在一起。在祝铭明看来,增强现实可能会是很长时间内的一个终极手段。 现在我们的现实生活和虚拟世界是独立的,“譬如说我跟你聊天,当我要看我的手机信息的时候,我跟你是割裂的”。但在未来,这两者将是融合的。“我在跟你聊天的时候,我的很多信息,比如说我在讲的主题,可能我的后面就有一个人工智能的助手,帮我整理我的信息。而且我在看这些主题的时候,其实我不需要离开跟你的眼神交互”。 祝铭明预测未来不会再有低头一族,因为数据生活跟现实生活会紧密融合在一起。而人工智能会一直演进下去,AR也会成为我们习以为常的交互方式。 END 原文章作者:Rokid,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-20
    2599 0

快速发帖

还可输入 80 个字符
您需要登录后才可以发帖 登录 | 立即注册

本版积分规则

在本IOT圈子中寻找帖子
IOT圈子地址
[复制]
Weiot(威腾网)是一家以原创内容、高端活动与全产业渠道为核心的垂直类物联网产业媒体。我们关注新兴创新的物联网领域,提供有价值的报道和服务,连接物联网创业者和各种渠道资源,助力物联网产业化升级。
15201069869
关注我们
  • 访问移动手机版
  • 官方微信公众号

© 2014-2020 Weiot.NETEPICGame 威腾网 北京微物联信息技术有限公司 ( 京ICP备20000381号-1 )