说起人工智能,人们脑海中马上就会浮现出有着独立人设的AI形象,包括了《钢铁侠》里的贾维斯,《超能陆战队》里的大白,甚至机器猫哆啦A梦。而这样的自然而然的联想却是人工智能行业区别于其他行业的一大特征,也是大众对这行业最大的误解。

这个世界对人工智能的预期太高了。人们能很简单的想象出一个理想中机器伙伴的形象,但是忽略了“人”其实是花了几百万年进化而来的超级生物。这几百万年的差距并不是数载深度学习就能补上的。从目前的现状看来,人工智能依然还是镜花水月般的存在。

需要指出,以上所提到的“人工智能”是狭义的人工智能,换成“智能助理”或者“拟人化机器人”来定义应该更为合适。广义来讲,人工智能包含了机器学习、自动化技术在各行各业的应用,而且和镜花水月的“智能助理”相反,广义上的工智能已经在深刻地改造着当今社会,在工业、交通、医疗等多个领域都有可喜的进展。

但本文想和大家聊聊的正是“狭义人工智能”。因为广义人工智能改造行业的逻辑一般都很清晰,要么就是解放重复劳动(比如客服机器人,比如自动化生产),要么就是特定环境下追求超越人的识别、判断、或行动力(比如医疗影像识别,比如AlphaGO,比如自动驾驶等)。

这样的逻辑不太需要过多的赘述,繁荣发展更多靠的是数据的积累和有明确方向的技术突破。但通往狭义人工智能的逻辑就很隐晦了,朝这方面努力的人更像是追梦者,在强人工智能技术还未面世的情况下,大家争相尝试,有得有失。聊聊这个过程,有更多思辨的乐趣。

接下来文章会分为三篇来阐述“狭义人工智能”的发展,分别是“智能音响篇”、“手机助理篇”和“其他产品篇”。

image.png

【智能音响篇】

—— 百箱大战的尾声,是一声叹息后的重新思考

过去的两年,大家都在期待着人工智能C端产品中能出现爆款,其中抱有最大希望的便是智能音响,在这个领域里,资本和巨头纷纷进场,国内一度上演了“百箱大战”的大戏。但时至今日,大战的市场声量已经极低,渐渐进入了尾声。

如果说top玩家在大战中的目的是为了扫清第十名到第一百名的参赛对手,那似乎是做到了,现在中小的智能硬件厂商,要么就守着自己固有的渠道自给自足,要么就不会再碰音响这个品类了。

但如果说“百箱大战”的目的是让大众用户都能认知智能音响,让它走入家家户户,像外卖或者打车软件一样形成生活中的习以为常的一部分,那这个目的似乎远远没有达到。

国内智能音响还不能称之为一个扎扎实实的“爆款”。对比国外,亚马逊的Echo在2017年初就有累积1000万的出货量,现在已经突破2000万。而国内百箱大战之后,依然还没有人站出来振臂高呼自己有1000万出货量。

image.png

理论上讲,国内消费者体量巨大,而且价格已经极低,销量和亚马逊的差距应该迅速缩小才对。但充分竞争之后,并没有带来市场指数级的繁荣增长。第一批智能音响满足了用户的好奇心,好奇心过后,可以靠价格,但再之后并没有看到撬动市场的驱动力。另外,产品留存率和复购率不高(没有准确数据来源,只是从各个渠道的用户反馈上推测),战场里每个参与者都多少有些疲惫了。

智能音响是通往智能助理之路上的重要尝试,可惜目前还是没有形成人工智能的大众心智。音响确实是智能助理的载体,因为它能语音交互,能做些设闹钟、充话费、问天气、查百科等助理的事情,但是在用户心智里,它更像是一个能语音操控的媒体播放器。

造成这样心智定位的原因有很多,我仅挑“人机关系”的角度说说个人观点。

人与人的关系加深和情感建立是一个你来我往,相互交互的过程,人和机器之间应该也是同理。但是音响在绝大多数情况下是个单方面交互的产品,交互的过程也只有一个:用户用唤醒词叫醒音响后下达指令。没有频繁的接触和交流,音响和用户的关系难以加深,成不了朋友,用户只能将它视为一个播放器了。

进一步挖掘,想让人和机器有“你来我往的交互过程”,至少还需要做到两个方面:第一个是连续的多轮对话,第二个是机器主动对话。

前者难以实现完全是因为技术瓶颈,现在的对话技术主流还是检索式对话,能在对话中做到指代消歧(让机器理解对话里的“他她它”指的是什么)已经很不错了,其他例如反问、联想、发散话题、切换话题等多轮对话的策略,虽然已经有不少人在尝试开发,但是由于人与人的聊天逻辑复杂到只可意会不可言传的地步,想要实现的很好还比较困难。

这时候开发者的选择之一就是减少复杂度,把对话限定在指定的范围,即在封闭域下的多轮对话,比如订机票、订外卖这样的有明确条理的任务型多轮对话,又比如聊具体兴趣爱好这样能罗列规则的特定话题聊天。无论是国外还是国内的音响,已经有了不少尝试,至少不是每句对话都要用唤醒词来开头了,可惜体验依然不够好,过去亚马逊echo的研发人员就说过“对话超过两轮就是灾难”,如今这个“灾难”有所缓解,但还没有根除。

image.png

后者(机器主动找人说话)难以实现主要是场景不自然。如果音响在家里突然说话,大部分人是受不了的,有时候更可能是吓一跳。幸好这个问题比技术问题好解决,解决的思路就是:没有场景就创造场景。

现在业界已经有的尝试包括:

让用户主动设置的提醒成为对话开始的契机,比如用音响设闹钟,闹钟响了后,音响再多唠叨几句。

用户说些没有明确指令的对话(比如“早晨好”“晚上好”)后,让机器主动多说些内容。

除此以外还有不少可以尝试的方向:

让音响主动给信号,比如闪灯,或者有屏音响上的提示,代表音响想说话了。此时用户也不用讲唤醒词了,就说“你干嘛”“啥事儿”,对话就能开始。

让用户空间的变化成为开始对话的契机,比如当用户刚踏进家门,或者刚踏进卧室的时候,音响可以主动说话“欢迎回家,等你很久啦,迫不及待想告诉你……”

抓住目光交汇的瞬间。如果音响有摄像头的话,发现用户在看它,屏幕就能亮起,或者主动说“你找我吗?” 毕竟人和人之间的大部分的打招呼和聊天也不是开始于唤醒词的,而是开始于“目光交汇的瞬间”。

小结一下,音响还没有形成人工智能的心智是因为和用户之间的交集还不够多(只是单纯从“人机关系”这一个角度看,其他还有很多角度,暂不赘述)。增加交集的方式有上文提到的一些创造场景的办法,但其实还有一个更重要的问题,就是“创造了交集之后,机器与人聊些什么?”这个问题其实在问音响能给用户带来的核心价值是什么。当下这个问题最简单的回答可能就是:“内容和功能”。而这两个词似乎也代表了目前智能音响的两个发展趋势。

先说“内容”。智能音响正在一步步拓展它所能呈现的内容的边界,从最开始放歌,到童话故事,到有声书,到电台,到新闻播报,到课程,到比赛直播,以后有屏音响更多后,视频资源也会逐步添加。每丰富一个品类,甚至每丰富一条内容,都让音响多了一次和用户交流的可能,而每多一次交流,智能音箱就朝着狭义人工智能的方向多前进一小步。

只是这条路依然非常艰难,因为一旦涉及到内容,就绕不开版权问题,音响想有丰富的内容,就需要各种内容生产方授权。这样的情况下,有内容版权的公司自己做智能音响会更理直气壮些,而大公司就只能靠财力来突破了。还好在挑战之下也孕育着机会,毕竟内容付费,知识经济已经在崛起,售卖内容肯定是将来智能音响合适的商业化手段。

image.png

当商业模式建立后,至少智能音响这个产品就能生存下去了,能生存就有继续探寻未来的可能。需要指出的是,丰富的内容是音响能为用户提供的价值,但如果单纯只提供价值,那音响只能算是个商品,而本文所说的“探索人工智能之路”,其实是在探索人和机器能成为朋友的可能,音响在提供内容之余,和用户再多聊聊见解、喜好、观点,这样才有成为朋友的希望。

再说“功能”。音响自己能扩展的助理功能其实很有限,虽然类似“给我爸充100块话费”这样的功能用起来确实很方便,但大多数能在音响上实现的助理功能都不是高频刚需。这时候大家所期盼的“新大陆”就转向了“IoT”(物联网),只是IoT的命题太宏大,如果聚焦在家庭场景之下会更好实现,毕竟功能可枚举,技术可控,收益也好衡量。“回家”是个高频动作,“呆在家里”是个高时长行为,家庭场景真是潜力无限。

刚巧在笔者写这篇文章的这两天,小米也宣布了自己的AIoT战略,就是:让AI+IoT成为核心,甚至未来5到10年都不会动摇。这确实是小米的最佳选择,单纯做手机已经是件非常困难的事情,幸好小米产业链上已经有了不少品质和口碑不错的其他单品,当新的单品不断诞生,同时一个个的单品又能连接在了一起时,量变会进而产生质变,点就演变成了网,谁也无法预料这样一个新孕育而出的“网”能具备多大的能量。这里的问题是量变到质变的转折点在哪儿?

个人觉得“当用户突然意识到家里已经有个不可或缺的小管家的时候”,就是质变已经发生的时候。人永远是懒的,在家能少走一步,少按个开关,甚至少说一句话都是极好的,而IoT的每一个功能都能让用户懒一点点(比如语音控制的灯泡,让睡前不用再费劲去关灯)。如果突然有一天家里断网了,或者停电了,用户发现自己浑身都感觉很别扭,原来一个个小小的功能已经在用户心中积累成了一个“不可或缺”的整体感受,那IoT的未来就真的来了(仅家庭场景)。

但这个过程真的需要很久的时间,这是一个执行层面的难题。无论是家电行业,还是家具行业,又或是装修、房地产行业,每一个都和家庭IoT有着重要的关联,而这每一个行业都是和互联网行业一样的庞然大物。相互之间的格局变迁,利益分配都需要多年时间。

令人欣喜的是,这一切至少已经开始了。家电行业一两年前已经全面开始了AI化,小米和宜家的合作是个不错的开头,证明人工智能的风潮已经吹向了家具行业,相信不久后会有更多家具、装修、房地产行业的公司宣布自己的AI战略。

image.png

回到音响的话题,音响是探索IoT未来的先驱产品,同时也被部分人视为IoT未来的中心枢纽。和前文的“内容”方向不同,如果IoT有越来越多的“功能”能通过音响来实现,那么一个拟人化的“管家”形象就能被建立起来,那“狭义人工智能”就已经被初步实现了。

这里想开一个小差,提一个有趣的小问题:一个家庭到底能接受几个智能助理?毕竟IoT市场之大,很难一家通吃,以后肯定有很多各有所长的智能助理,假设是小A,小B,小C,小D等等。会不会出现一个所有人都认可的协议,让每个智能助理都能控制所有家庭设备呢?

有点难,历史似乎一向都不是开局就朝着大统一的方向发展,那大概率上,就会出现小A擅长控制冰箱、空调;小B擅长内容播放;小C擅长控制电灯、电视;小D就只管扫地机器人。一个家庭里同时住着好几个智能助理,这样的未来用户都能接受吗?

总结完了智能音响的两大发展方向,第一篇“智能音响篇”到此就基本结束了。虽然智能音响的发展还没有达到最理想的境地,但是笔者一直相信所有积极的探索都是有意义的;虽然未来还未到来,但是人们总能在失望后找到新的曙光;虽然曙光也有可能只是幻觉,但是只要还在努力,遮在未来前的幕布终会被掀起一角。

本文的主题是探索“狭义人工智能”产品之路,背后的核心假设是未来机器不再单纯是工具,而是以拟人化的形象能和人类和谐相处。如果这个假设不成立,那文章大部分的观点都是无意义的。但这个假设正是笔者的一点执念——人类能和机器做朋友,这个未来会很有意思。接下来,文章还有两篇,分别是“手机助理篇”和“其他产品篇”,继续描述目前看到的业界尝试,并做一些简单的分析。