bannerny

数字化产品

海知智能谢殿侠:智能音箱背面的天然语言了解和常识图谱技能

发布时间:2021-09-09 18:03:07 来源:优游ub8手机客户端 作者:ub8优游彩票登录官方网站

产品详情

  以语音说话为首要交互手法,以音箱为前言,打通了海量内容,能听,会说,懂你,并对接了服务资源,这才是真实的有智能的智能音箱。

  钛媒体旗下的钛率直微信课第27期,也是“AI已来”系列共享第1期,请来了6位语音辨认、天然语言处理范畴的钛客进行共享。本文依据海知智能创始人、 CEO谢殿侠的共享收拾。谢殿侠有着多年文字处理、常识办理技能及办理阅历,兴办海知智能并带领团队开发出首款中文特性化谈天机器人敞开技能渠道。

  咱们好,很快乐今日晚上在钛率直给咱们做一个共享。前面几位从不同视点论述了AI和工业相关的常识,我将从一个详细的“智能音箱”产品下手,谈谈在人工智能技能支撑下,咱们能赋予音箱这款传统的产品多少新的或许性,以及终究能给用户带来什么样得全新体会。

  我记住上一年评论智能音箱的时分,咱们仁者见仁智者见智,观念不尽相同。乃至,广州、深圳一些传统蓝牙或无线音箱厂商的负责人认为,能经过蓝牙、wifi衔接智能手机,便是智能音箱了。我认为,真实的智能音箱,应该是以语音说话为首要交互手法,以音箱为前言,打通了海量内容,能听,会说,懂你,并对接了服务资源,这才是真实的有智能的智能音箱。但从上一年到本年上半年,怀疑是干流:这事儿靠谱吗?这样的音箱咱们会纷繁买单吗?

  直到最近,Amazon Echo这款智能音箱在北美开端遍及,销售量逾越500万台。谷歌也紧跟亚马逊的脚步,推出了一款相似的叫Allo的智能音箱。智能音箱作为日子场景的一个重要进口不再仅仅是个概念,现已是正在发生的未来。我在硅谷看到,不少朋友家里边 Echo 现已成为一个常用家用电器,成为家庭新成员持续性服务。而不是像其他智能产品如眼镜、手表等,更多是极客的玩具,普通用户用一阵就扔到抽屉里了,或许仅仅作为传统的产品运用为主。智能产品和传统产品没有本质差异了。有人说,Echo相似于当年 iPhone 在智能手机年代的位置。智能音箱年代来了!

  反观国内的几款智能音箱,从现在成果看来,没有哪个产品像Echo成为了家庭新成员,取得存在性,发生持续性价值。为什么呢?咱们能够从三个方面来看:

  我上一年拿到Echo后,和深圳音箱专业人员交流,他们惊奇于其声响质量和硬件质量。一百多美金一台的Echo,即使去掉智能性成分,也是一款不错的喇叭,和同价位的蓝牙音箱比较具有必定的可比性。咱们这些没有成功的中文智能音箱,则和同价位的蓝牙音箱比,仍是略有间隔,没有满意的竞争性。所以,智能音箱,首要得把音箱本身的质量做好。

  音箱有智能,至少能用人的天然语言与人交流,能够听懂人的意思,能给人想要的内容。近两年语音辨认技能日新月异,咱们众所周知;但语义了解方面,确实应战不小。比照之下,Echo在和用户沟经进程中,针对供给服务的范畴里辨认和了解做到了必定的可用性;咱们这些中文智能音箱的先行者,或许中文语音辨认环节不错,但语义解析环节单薄了一点,终究用户全体体会发生了瓶颈。

  声响质量和交互体会上有保证了,还不行。当用户开口说话,智能音箱听懂了,让用户爽最好的方法是直接给用户想要的成果,比方点歌就直接放歌,想听相声直接播映相声。语音交互为前言的智能产品与网页、app 类有界面的产品不同,它没有没有界面约束用户发问的内容规模,人们开口与音箱交互的时分,简直是没有显性鸿沟的。这种情况下,就要求内容一要有质量,二要有体量,了解并掩盖到用户想要的东西。相同,Echo结合了亚马逊本身的资源的音乐库,一起接入Pandora、Spotify等第三方资源,具有适当规模的体量。体会过echo就会发现,在它供给服务的范畴规模,体会是得到保证的;没有掩盖的范畴,智能音箱里边的机器人Alexa 会告知你“对不住,我没有这个服务”。咱们中文智能音箱产品先行者,或许内容触及的范畴品种颇多,但内容的质量和体量有待于进步。

  当然,影响智能音箱质量的要素不止这三个方面,但以上三个方面在很大程度上决议了一个智能音箱的全体用户体会。作为一款音箱怎样进步声响质量不是今日评论的要点,后两块部分特别是语义了解以及资源整合上,咱们现已对此相对来说有了一些了解、测验和阅历堆集,即使一起也面临着应战。

  那么在什么样的场景,处理用户什么样的问题,智能音箱类的产品才干在家庭中占有一席之地,变成一款咱们用上一阵后便离不开的产品,并有或许完成将来才智家庭日子进口呢?咱们来经过一些详细的比方,看看抱负的智能音箱会是一种什么样的体会。

  这跟传统了解的气候预报不相同。用户运用天然语言交互,他没有说我要问气候,或许气候预报,当咱们真实在日子中发生对气候情况查询的需求,对话都很场景化,场景比方”今日下雨不,去上海要带伞吗”,实际需求了解的是时刻、地址、是否下雨。

  这几个比方,相同是问询气候,但用户只想了解温度,机器进行语义了解后,只回复了气温数据和主张;由此发生多轮问询,切换时刻、切换城市,都能针对性答复问题。所以,作为气候这么一个最根本的服务,智能化在于怎样运用户经过更天然的方法表达诉求,机器经过更人性化的方法满意诉求。

  比较早的时分是机械闹钟,上发条,到点就会响铃,然后手动摁掉闹钟中止。现在咱们用智能手机设的闹钟能够完成到点后手动中止,或推延多长时刻再唤醒。智能化的闹钟能够怎样玩?篇幅有限,咱们只看一个环节:闹钟设置结束,也在规则时刻响起,怎样有用唤醒主人起床或封闭闹钟?

  假如用户成功答复问题,艾满意宝宝反应封闭成功,闹钟就不再响了。假如用户答复过错,咱们还能设置音箱给用户屡次答复的时机,直到答对后音箱成功封闭,这时分人也该清醒了。有些情况下,用户真的无法答复或需求赖床,依据语义了解,咱们也能够做到比方:

  所以人“人”交互,人和机器人的交互规划,就有很大的不同。人不是机器,会有含糊,会有不同表达方法,咱们期望智能音箱中的机器人也能人格化,被当成一个同伴而不是严寒的机器。

  中止闹钟功用,除了上面举例的诗词之外,也能够设为成语接龙,比方音箱里的艾满意宝宝说春风夏雨,用户说雨后初霁,艾满意宝宝说闹钟封闭成功了。当然玩成语接龙也有或许想不起来,艾满意宝宝也会替换不同的题型,供给满意的容错空间,比方再玩点儿其他:口算55+66等于几?我国有几个省等等,当艾满意宝宝了解你的目的、一起具有了一些常识技能后,就能够与你深层次互动, 来到达规划好的目的。

  我举闹钟这个比方来标明,经过语义了解能够定制出这么一类新的智能产品交互形式,能够使机器与人像人与人相同进行风趣、有用的互动。

  这些新的产品交互形式能够依据具有的范畴服务资源进行整合。比方需求有一切诗词的常识,才干够知道诗句的上一句和下一句。当这些范畴掩盖后,结合体系的机制,就能够整合构成咱们刚刚演示的闹钟唤醒中止功用。以此类推,经过不同范畴服务与语义了解的组合,能够构成各式各样意想不到的打破传统产品交互规划带来的效果。

  假如早上想听新闻,就对音箱说,音箱里边的艾满意宝宝将文本的新闻经过一些初级或深化的剖析,再用TTS语音组成找到成果,或直接调用有声资源将现成的音频资源播映给你听。现在咱们渠道整合了约1500万网络音频资源,从儿童故事到名家讲坛,从名著章回到相声小品,在你说你想听什么后,大都能够直接为你播映。

  比方,我想听罗胖子讲互联网。音箱能反应什么?成果为回来罗振宇的一期逻辑思维“五问互联网”的节目。传统的查找很难做到这点,为什么呢?由于查找”我想听罗胖子讲互联网”会呈现许多东西,怎样才干射中这个精确的内容呢?

  从技能完成来讲,还有几个问题:榜首,艾满意宝宝需求知道,用户是想听一个节目;第二,知道用户要听节目后,还要了解用户要听什么内容;第三,撇去非必须信息,解分出罗胖子是个人,讲互联网论题。

  那么谁是罗胖子? 有的人说,是罗振宇,有的人会说,不,是罗永浩。这两个都是胖子,都还有点名望,为什么体系回来了罗振宇讲互联网的内容呢?在相对老练的体系里,体系把罗振宇、罗永浩等字符串映射到一个个实体:一个姓名是罗振宇的人被称为罗胖子,是前央视的记者,后来自己创业做逻辑思维,是个媒体人,常常开讲从技能到人文到各范畴的见地;一个叫罗永浩的人也被称为罗胖子,锤子手机的CEO,曩昔做英语训练,搞行为艺术,他或许更多的是会推销锤子手机,或许是讲讲英语等。有了这些判别,体系定位了罗胖子更或许是罗振宇。终究就查找匹配关于互联网论题的内容,成果逻辑思维节目中有一期叫“五问互联网”。这个进程既包括了天然语言了解,也包括了常识图谱运用。

  当内容体量十分大,人们的问法说法也十分多时,射中率经过运用这些技能会比传统要害字查找高不少。当然,想尽头一切的说法,给一切用户的一切表达习气一个满意的答案,还有一段路要走。

  音乐,关于智能音箱来讲,是十分重要的一个功用。现在,咱们现已整合了千万量级的音乐元数据,也能掩盖了用户关于音乐点播的多样化的说法。现在首要有三个方面的智能化特征:

  曩昔比较传统的做法是,我想听谁的歌,音箱就回来此人的歌曲,一般用查找形式也能做到。但比方”我想听五月天的新歌”,这就有点儿不相同了,咱们不止会辨认”五月天的歌”还会将”新歌”作为要害点,回来五月天最新的歌曲列表。假如接下来持续问”来一首他们的《顽强》”,艾满意宝宝就经过音箱就开端播映这首歌了。这个”他们”是谁?体系了解便是上一轮对话中的”五月天”——彻底贴合天然人的交流方法。你也能够说“来一首《好久不见》,陈奕迅唱的”,音箱播映了陈奕迅的《好久不见》,然后你忽然想:哎呀,如同张学友也唱过《好久不见》!说“换一个张学友的版别”。这时分,体系会切换到张学友的《好久不见》,接着,你眷恋起了张哥哥的歌喉,持续说“再来一首他的《吻别》”,这儿的”他”指的是谁?张学友。

  这些都是依据天然语言了解和常识图谱技能的问答,差异于传统的要害词查询,愈加灵敏、精确、天然。

  用户连场景也无需描绘,只说放音乐,音箱自动播映合适你的音乐。一方面,体系会尽或许懂你,经过对话进程了解你是谁,播映记载了解你的口味,以及点歌、播映以及其它范畴谈天的进程经过对对话的了解来把握用户的爱好偏好。咱们把整个的音乐库做成是一张大的图谱,终究找到合适你的这些音乐。并且你用的时刻越长,体系会对你的了解会越准,引荐的歌会越合适。怎样做才干完成这些功用?一方面是让机器懂人的目的是什么,别的是知道资源常识在哪儿。从产品技能的视点来讲,便是一套天然语言了解和敞开常识图谱的技能服务渠道来供给语义API给咱们来完成这些功用。

  下图是咱们全体的技能架构,左面是IOT智能硬件、机器人、即时通讯的东西、APP、网页或许是电话,其间的语音辨认和语音组成咱们不进入。但多轮对话的机制、天然语言了解到语义查找,接着对应到范畴服务,范畴服务取得内容之后,经过天然语言生成答案,中心中心部分是机器学习和常识图谱技能。

  在范畴服务方面,一来,经过敞开接口对接很多第三方数据,别的,咱们渠道供给专门的语义东西箱能够为机器人运营方或许产品品牌方运用,用来规划自己的特性化特征。海知智能ruyi.ai作为敞开的技能渠道,选用敞开的事务形式,从底层的技能到上层运用都对外敞开,咱们能够做出归于自己的特性化机器人大脑。

  例如,假如有一款音箱,接入了技能渠道上的艾满意宝宝机器人后,勾选音乐服务、有声资源服务、气候、笑话、百科常识等等服务,就能够完成根本的语音交互了,机器能听懂你,还能给你答案或许成果。当然,假如仅这些功用或许会呈现千机一面的现象,一千种产品接一个技能渠道,不做任何特性化修改,雷同度将十分高。但运用了语义办理的东西箱,简直任何人学会后都能够对机器人大脑增删改写自己的问答对儿、去做自己需求的二次开发定制机器人的技能。前者对无任何相关专业根底的文科生来说,只需经过不到三天的训练,就能够把握这个东西;后者则需求必定的开发技能,能做出自己想要的东西。 两种定制形式结合,将智能音箱打造成从内而外的特性化机器人。

  海知智能是一家创业公司,供给语义API敞开技能服务,但不会要点面向敞开范畴做,而是针对若干笔直范畴做深做透。除了敞开给合作同伴,咱们也敞开给同行;假如同行有自己的API,觉得自己的更好的部分用自己的,没有的或许没有咱们好的能够用咱们的。由于用户一开口说话,掩盖的范畴规模就十分的多,咱们把各自专业或许特长的 API结合起来满意用户尽或许多的接连性需求。渠道敞开,不只仅把语义办理东西箱敞开给咱们,把技能接口敞开给开发者,一起不论文科生仍是理科生,内容的运营者仍是程序员工程师,能够在这个技能渠道的根底之上,经过二次加工或开发,构成具有特性特征乃至人格化的机器人大脑的技能,为自己的品牌服务。假如乐意,也能够把这些大脑技能打包后做成范畴服务,供给给第三方。咱们很快会敞开这些功用,把开发者二次规划开发的技能变成一个揭露的范畴服务。这样一来,其他人做的机器人大脑也能够用你的范畴服务,丰厚自己的机器人大脑技能。

  因而,咱们也在与若干高校、企业等,建议中文敞开常识图谱联盟,就期望能够让咱们把数据经过 API敞开互联,一起来让中文的智能机器人具有越来越强的服务才能。

  现在,海知智能现已做了二十多个范畴,特别像音乐有声资源,与Echo做过专门比照,放下Echo的高明的英语才能不谈(这家伙只需英文版),咱们的老练度,包括用户体会、数据数量、掩盖的用户说法等等,相对echo的这些方面,都有了些逾越,掩盖的说法更多,射中率也更高。

  别的像闹钟这品种型的服务,这也是他所没有的,echo仅仅简略的设置一个闹钟,仍是用语音输入法的方法规划产品。可是咱们现已具有了这个才能,能够让这个事做得十分有意思。当然Echo及其 Alexa仍是十分强壮的,其全体体会也是十分棒的。仅仅从咱们的视点来讲,到现在为止,海知智能ruyi.ai及其艾满意宝宝机器人在支撑中文的智能音箱方面,智能化程度上和资源的整合方面到达了必定的老练程度,不亚于 Alexa(英文才能)。咱们支撑几家音箱的品牌最近也会连续的上市。

  不远的未来,每一个家庭的每一个房间,都应该有一台智能音箱。2017年是智能音箱迸发的榜首年,会是我国智能音箱元年。或许是两三年,或许三五年,它应该不比智能手机遍及的速度更慢,会掩盖更多的家庭的场景,会变成家庭的一个不可或缺的新成员。

  所以,海知智能的任务是“人人会做机器人”。便是把打造机器人大脑的门槛,降低到满意低,只需你会用电脑,会玩微信大众号你就能够做一个自己的机器人大脑,像曩昔做个app或许是网页相同为咱们供给服务。终究期望有那么一天,人人能有机器人,机器人在方方面面为你服务,让你作业日子愈加轻松满意。

  谢殿侠:咱们不做语音辨认和语音组成,也不碰硬件,只专心于语义API,专心于这个技能的渠道。咱们的输入端是文本,所以任何一家语音辨认的公司,转换成文本之后咱们都能够对接,并且能够依据语音辨认的成果经过语义了解来做对应的修正和优化。

  谢殿侠:咱们并不是彻底免费,Freemium的方法,有限的免费。比方在针对硬件服务这部分,咱们有对应的licence加API调用的收费方法,以及包括运用了音乐等第三方的收费服务。

  Q: 语音转文本会存在过错率,对后续目的辨认影响会很大吗?特别是bot后端对接海量服务的时分,目的辨认的精确率和功率的问题

  谢殿侠: 语音辨认确实是会有过错率,比方说不论是咱们过失率降到百分之几,比较小的过失率对咱们影响不大。咱们能够经过语义了解来修正语音辨认的过失,即使两头是彻底松耦合对接,当然紧耦合也有或许会带来更好的成果。当过失率比较小的时分,咱们是有或许去修正过错成果来提高全体的了解精确性,可是假如过失率比较大,比方说有噪音或许听歌进程中打断进行交互时语音辨认过错率偏高时,语义了解进行修正的难度就会比较大。所以说,当过失率小到必定程度的时分,咱们能够起到好的效果,当过失率大到必定程度的话,咱们暂时还无法保证成果的有用性。

  谢殿侠:对,由于从现在来讲,比方说人脸辨认突破了机器视觉能够逾越人类的辨认才能,语音辨认也接近了,可是语义了解和自动化处理常识,这一块机器和人比较仍是有间隔的。在这种情况下,我一向着重一个观念,“叫特定场景,特定用户,面向特定问题供给特定的范畴服务,围绕着笔直把工作做透”。

  智能音箱表面上来讲是个单品,和机器人比较比较简略,咱们把智能音箱界说成机器人的 MVP。所以假如要把产品做好仍是有很大难度,比方首要需求把芯片板卡本钱降到满意低,稳定性进步到满意的高;然后是语音辨认,语义了解的中心的环节,还有内容的资源整合。这些环节做好做透,既有技能含量高的当地需求去应战,也有苦活、脏活、累活的做做通 。当然音乐等版权内容范畴, 这一年多阅历了版权不断改变收紧和职业格式进行改变调整的进程,咱们一向在对接各式各样正版的资源。不论是技能上仍是商务上,这条路现已打通。所以从智能音箱这个工业链视点来讲是天时地利人和,万事俱备只欠东风,接下来就看有多少品牌来做以及做到多大的量的问题。

  谢殿侠:音箱的本钱首要取决于硬件,喇叭的质量、芯片板卡、外观,然后是原料,还有软件这块的本钱,当然还有或许的内容资源本钱,比方版权音乐但不会太高,所以中心的本钱仍是在硬件上。现在我所知道的价格大约有的一千多的,有的是做三五百的,当然三五百的各块的质量是相对有限,可是根本上一千块钱左右的,作为一个喇叭,它的质量现已十分好了,再加上语音交互,结合好的内容,这个体会是适当不错。

  谢殿侠:我这儿说的人人有自己的机器人,或许跟平行国际里的自己还有点不相同,平行国际自己是你的影子,现在咱们或许偏重的还在于说为你服务的机器人。就像曩昔的皇帝, 今后每个人都可所以皇帝,由于你也能够有三宫六院,七十二妃,文武百官,不过都是机器人,不论是什么形状。音乐背面可所以一个机器人,实际上新闻也可所以一个机器人,导购也可所以机器人,换句话说,今后一切的服务都能够用机器人来做,就如同电脑上用网页来为咱们供给服务,手机app为咱们服务相同。一切人能供给的服务,未来都或许会让机器人先在前端来供给。当然这个机器人的形状或许体现在智能硬件上,特别智能音箱,结合到app里边也能够,放在网页上也没问题。并且机器人习气我、习气我后,机器人就和我就树立了一个联系,机器人了解了我的性情、我的偏好、乃至我的脾气,这时,机器人成为一个与我十分熟的朋友。这时的机器人有两个特征:榜首这个机器人十分专业,第二这个机器人与我十分默契。

  所以咱们说的特性化的渠道,除了不同的品牌的机器人会有不同特性化特征;别的,即使同一个机器人在服务不同用户的时分能够和用户树立共同的联系。比方最根本的你能够叫机器人小狗或许小猫、翠花,机器人也会问你,请问我怎样称号你,你能够让它叫你老爷、老王等等。(本文独家首发钛媒体,依据海知智能创始人、 CEO谢殿侠在钛率直上的共享收拾)

版权所有:© 2017-2020 ub8登录网址www.echooit.com. 技术支持:ub8优游彩票登录官方网站 苏ICP备60362541号-1 网站地图 XML地图