基础语音专项评测:BAT旗下的3款智能音箱表现如何?仅仅在市场上冒泡了没多久的智能音箱便取代了前辈——智能路由器,成为了智能家居行业的新宠儿,这在科技界算是蛮有趣的事情了。
数据能反映智能音箱的前景有多明朗,据调研机构 Canalys 在今年年初公布了一份报告显示,2017 年出货量刚刚突破 3000 万台的智能音箱,预计将会在 2018 年达到 5630 万台,预计增幅约为 87%。
尽管这只是一个预测的数字。但当苹果、亚马逊、Google 以及国内不少科技互联网界的巨头都纷纷推出相应的智能音箱产品,相信你也感受到这股趋势到底有多火热。
不过,作为一个用户,趋势、未来智能家居的核心、重新定义下一个十年的未来等这些太过于偏行业的东西,可能并不是我们最关心的事情,反而是智能音箱本身的「便利」,激起了我们尝试去体验它的念想。
XXX,明天天气怎么样?
XXX,我要听周杰伦的歌。
XXX,明天上午 7 点 30 分叫我起床。
比如啊,在我体验了各种形形色色的智能音箱一年多的时间里,这三句平淡无奇甚至听起来有点傻的语句,却恰恰是我最得心应手,也是最常对智能音箱使唤的命令。你只需要耗费一丁点口舌功夫,你就能把查天气、听歌、设闹钟这三件事变得简单、优雅。
其实,倒不是我不愿意去挖掘智能音箱一些新的使用场景或与智能音箱进行更深入的交流,而是一方面这些智能音箱真正实用的很少;另一方面繁多的花哨功能随着使用频率的减少,也容易让你遗忘它的其他功能。
当然,我认为这当中更为主要的原因是,目前这些打着人工智能旗号的「家伙」压根儿就没法给你提供满意的人机交互体验。
回过头想想,除开娱乐方面的功能,现在的智能音箱在对话方面的能力,其实与 7 年前出现在 iPhone 4s 上的 Siri 相近,两者相比似乎并没有拉开太大的差距。
为了更深入地了解这些智能音箱,究竟在基础语音对话方面的表现如何,爱范儿决定挑选百度、阿里以及腾讯这三家公司旗下的智能音箱产品,来做一个简单的基础语音专项测试。
究竟在基础语音功能方面,百度旗下的渡鸦 Raven H,阿里旗下的天猫精灵 X1,腾讯旗下的听听,谁更「懂你」?
让 TA 随呼随应,其实是一大考验
实际上,为了让语音助手,也就是智能音箱那个与你交互的东西,不会因为周遭环境的声音,而胡乱说话,干扰你的生活。目前大多数语音助手及智能音箱都在设计之初,就加入了唤醒词这一机制。
并且为了让这些唤醒词能够起到该有的作用,国内的厂商们常常会使用四个字组成,且相对生僻的词来作为智能音箱的唤醒词。例如,小米 AI 音箱就采用了「小爱同学」、百度的渡鸦 Raven H 用了「小度小度」、天猫精灵用了「天猫精灵」、腾讯听听则用了「9420」(就是爱你的谐音)…
而这些唤醒词,作为开启每次人机交互的一把钥匙,它的唤醒成功率也影响了智能音箱的基础体验。
虽然这当中有一部分像渡鸦 Raven H 那样可以自定义唤醒词,但通常这些自定义的唤醒词唤醒的成功率往往不如出厂默认的好。因此,在下面这个唤醒词测试环节中,我们将默认使用 B.A.T 这三家公司旗下的智能音箱产品出厂默认的唤醒词进行测试。
为了尽可能还原用户实际使用情况,在测试唤醒成功率方面,我们选取了 1 米、3 米以及 5 米这几个相对较常出现的距离来唤醒智能音箱,并且将在相对安静的环境中进行测试,同时将每个测试对象总的测试次数定为 20 次,每次唤醒的时间间隔为 1 分钟,看看它们的唤醒成功率。
需要补充说明的是,由于人声不可控,因此我们只能试图在每次呼唤智能音箱时,尽可能保持音量大小和声调相近。
从测试的数据可以看到,无论是百度、阿里,还是腾讯,它们的智能音箱产品在 1 米距离内的唤醒表现已经做得非常好,基本上能做到接近 100% 的唤醒成功率。
当离音箱的距离扩大到 3 米的时候,渡鸦 Raven H、天猫精灵 X1、腾讯听听,它们在唤醒成功率方面,就都出现了一定程度的下降,而三者之间的差异并不明显。而再当距离进一步扩大到 5 米的时候,三者之间的差异同样不太明显,而唤醒成功率也已经大幅下降,在这个距离下,你唤醒智能音箱的时候,已经没有之前那么顺利了。
除了在安静环境下测试它们的唤醒成功率,我们还模拟了大部分使用智能音箱,常遇到的场景——在智能音箱播放音乐时,唤醒它。
由于 3 款智能音箱的音量很难统一,因此我们选择将各自的音量均调至 80% 来看看它们在面对自己播放音乐时,会不会影响它们唤醒表现。
可以看到,当播放音乐的时候,渡鸦 Raven H、天猫精灵 X1、腾讯听听都不约而同地受到了自身的影响,它们的唤醒成功率在 3 米、5 米等距离下,都出现了相等幅度的下降,而且三者的差异并不明显。
不过,我们也注意到当智能音箱播放音乐的时候,它们的唤醒成功率确会受到一定的影响。
在排除了测试条件、人声以及统计的误差等方面的因素后,我们认为 3 款智能音箱的在唤醒成功率方面表现都比较接近,无论是在相对安静的环境下,还是在自播放音乐的时候,三者的差距并不明显。
当然, 这与这些智能音箱产品对唤醒这一交互的重视有关。比如像渡鸦 Raven H 就专门设计了一个由 4 个麦克风组成的麦克风阵列,并在软件上对唤醒做优化;而像天猫精灵、腾讯听听亦是为了达到更好的唤醒率,而在软硬件方面投入了许多…
不过,诡异的是,3 款智能音箱已经放在我的卧室里用了一周,但在段时间里,渡鸦 Raven H 曾在我通宵敲打青轴键盘写稿的时候,突然被唤醒过几次…
而同样的时间里,天猫精灵 X1、腾讯听听则没有出现过这种情况。
你说的话,TA 能懂吗?
其实,现在我对于智能音箱已经不指望太多了,只求它能在基础功能的语音指令上懂我的意思,我就心满意足了。比如说,同一种意思在不同的语述下表达,能否理解人类的意思。
那么当它们在测试天气、播放歌曲、设闹钟这三个相对较频繁的使用场景下,用一些相对表述广泛的语音指令,它们能听得懂吗?
天气
今天天气怎么样?
今天会下雨吗?
今天要带伞吗?
其实在天气这一个场景下的语义理解方面,已经难不倒普通的智能音箱。像天气、下雨、伞这几个常见的关键词都已经变成厂商们优先优化的部分。所以啊,B.A.T 这 3 款智能音箱对以上这几个常见的句式,已经游刃有余。
只不过,令我想不到的是,渡鸦 Raven H 虽能理解这几个简单的句式,但有时候它会出现听不懂的情况,即便是你问他今天会下雨吗?它仍然回复「抱歉我太确定你说了什么」。
播放歌曲&定闹钟
我想听周杰伦的歌。
播放周杰伦的歌曲。
说好的幸福呢?
来到播放歌曲这一环节,3 款智能音箱都能准确理解并回复对应的答案。亏我特意还用一个容易混淆它理解的《说好的幸福呢》,来试探它们的理解能力,但依然没能骗过他们。
而定闹钟也是如此。
明天上午 7 点 30 分叫我起床
给我设一个上午 7 点 30 分的闹钟
提醒我 7 点 30 分起床
在这些基础功能方面,基本上渡鸦 Raven H、天猫精灵 X1 以及腾讯听听都能在简单的句式中理解你的意思,并触发相应的功能。
总结
通过这上面的两个小实验的数据来看,我们不难发现,不管是渡鸦 Raven H,天猫精灵 X1,还是腾讯听听,它们在唤醒词方面的表现以及简单场景下的语义理解方面的表现,都拉不开太大的差距。
在唤醒成功率方面,渡鸦 Raven H 的整体表现确要天猫精灵 X1、腾讯听听要稍微好那么一点,但它也存在相对较明显的误唤醒问题。
而在简单场景下的语义理解方面的表现,三者其实都能达标,但值得赞扬的是,现在厂商们也越来越重视人性化的语义理解。例如啊,在播放音乐的时候,当你想快速让智能音箱静下来,又突然想不起对应操作的准确指令时。
这个时候,我经常会用到的一个语音口令是「XXX,闭嘴」,而显然类似的人性化语义识别已经受到了厂商们的重视,无论是小米 AI 音箱、出门问问 Tichome,还是现在所测试 B.A.T 三款智能音箱,都已经将「闭嘴」这一人性化语义映射到静音这一操作上。
可以预见的是,随着人性化语义理解方面的能力提升,智能音箱会慢慢褪去其机械化的程序回复,而在与我们交流时变得越来越自然,越来越像人类。
说回正题,通过这次简单测试,我们已经可以看到,百度、阿里、腾讯这些掌握了大数据且具备一定研发实力的互联网巨头,当它们都置身在智能音箱这一片未开荒的领域中时,其实大家都还处于同一起跑线上,产品的基础功能以及体验并没有拉开明显的差距。
当然,智能音箱还处于早期阶段,当人工智能真正发展到一个较为成熟的情况后,也许那个时候智能音箱吸引我们的不单是便利,还有能填补人类情感空缺的技能。
2898站长资源平台网站排行榜:http://www.2898.com/ranklist.htm