澳门新莆京33375.com智能互动设备的探索设计,语

2019-09-18 19:09栏目:科学技术中心
TAG:

原标题:阿里 AI——智能互动设备的探索设计

原标题:「语音交互设计」之 VUI简析| L-insights

设计也需要在每个场景中分别做出判断,行业通用的部分沉淀,以及行业特性的个性化设计思考,都是需要不断的去尝试和打磨的。而智能互动设备作为一种趋势,也是设计师去发挥所长的沃土。

近来,智能语音交互市场的热度可谓一路飙升。

澳门新莆京33375.com 1

  • 微软Build大会发布智能音箱Invoke,
  • 苹果WWDC发布HomePod,
  • 百度AI开发者大会发布DureOS开放平台,
  • 阿里人工智能实验室发布天猫精灵,
  • 亚马逊推出语音助手Alexa…

5号小蜜:智能互动设备的初期准备

随着智能音箱ALEXA接入超过2万种设备,亚马逊在人工智能领域实现了一次跨界奇迹,离实现“speaking to future”的梦想又更近了一步。另外,据ComScore报道称:苹果iOS 和HomePod 设备的Siri每月拥有超过4000万用户,美国家庭中更是将近1/10已拥有了一位智能语音助手,并且由于屏幕疲劳这个无法避免的问题,智能语音越来越被人们接受,语音交互技术也正变得越来越普遍。

在如今智能硬件设备,语音互动的大趋势下,我们针对实体智能互动的硬件,从想法 – 设备 – 技术 – 设计 – 场景,总结沉淀了部分探索经验。

“语音交互将改变我们的生活。”

澳门新莆京33375.com 2

  • “帮我看一下明天的天气“
  • "给我订一辆出租车"
  • “替我放一些爵士乐”

首先交代一下背景:

在阿里小蜜语音助手的形态下,延伸出了很多智能相关的研究和探索,其中智能硬件也是我们想要去发展的一部分。在这种情况下,以“5号小蜜”为名称的智能互动硬件设备应势而生。

在Gartner总结的2017年几大趋势中,virtual assistants处于热点的最高位,在2018年也是居高不下。

(名称解释:在决定做这个产品的初期,是以落地到公司的5号行政楼为场景的前提下进行的设想,所以叫“5号小蜜”)。

澳门新莆京33375.com 3

在有了这个想法后,5号小蜜进行了1.0版本的研究和设计,在项目初期我们的承载硬件主要是以55寸,比例为16:9的液晶屏幕为主,用机器人的虚拟形象进行语音的互动,其中的场景设定也是在访客进入到5号行政楼进行互动的能力。

source:gartner. com

澳门新莆京33375.com 4

澳门新莆京33375.com 5

智能互动设备的框架拆解

source:Stephen Kenwright ’s blog

在有了初步的进展之后,我们以设计师的视角总结了智能互动类设备的基础框架,为我们之后的升级和完善进行了整体的方向指导。

语音交互的主要特点在于开放式聊天功能和任务导向型功能

澳门新莆京33375.com 6

如果说快捷高效、轻松自然是语音交互的独特优势,那么任务导向型功能就是这些优势的完美落点。一个良好的语音交互产品,自然是技多不压身,能覆盖的范围越多越好,提供的功能越强大越好。

首先智能互动设备的核心支撑能力一定是算法的能力,而当前市面上的智能硬件大多数是以语音助理的形态出现的,因此对于设计师来说,VUI是重要的一环,5号小蜜不单单是语音的交互,也是视觉上的交互。因此在感知层面的设计上来说,是“VUI GUI”也就是听觉和视觉的互动(但在硬件多样发展的今天,触觉类也应该是要考虑到感知层面的一部分)。

下面小线菌将从语音交互中的VUI开始,为大家扒一扒语音交互那些事儿。

VUI GUI对比传统语音交互会有一些优势体现:在互动方面,语音可以理解为面,单一面传递信息是有限的,如果语音和界面结合起来,就是从两个单一面形成了空间,可以承载更多的信息。

VUI简史

举个例子:人与人在交流中不止是语言传递的互动,可以从面部表情、传递出喜怒哀乐;肢体语言传递出兴奋度和性格特质。综合起来,我们的交流才会更顺畅。

谈VUi前,我们得先说到GUI。图像用户界面GUI(Graphical User Interface)是60年代「人机交互」奇才道格·恩格尔巴特提出的概念,自从80年代苹果推出第一款应用GUI的电脑后,GUI一直是人机交互的典型代表。后来,随着越来越多的语音控制设备,如苹果HomePod和亚马逊Echo席卷市场,VUI正在帮助改进各种不同的用户体验。

在物理层面而言,是硬件设备的选择:液晶屏幕、玻璃屏幕(透明、非透明)、全息投影等。

VUI是用户通过语音与计算机进行人机交互来启动自动化服务或流程的工具,是直接面向用户的界面,所以是否能满足用户需求是判断其成功与否的决定性因素之一。VUI的发展过程主要可以分为以下两个时期:

在初期,我们的选择是液晶屏幕,这个是最基础的承载硬件,也是成本最低的硬件。而其它选择的硬件也有优劣之分,透明玻璃屏适合导购的场景,背后是否有商品的出现,是从传统的触觉互动进行了更多承载信息的进化。非透明玻璃屏适合更沉浸的助理场景,全息投影会更接近真人的感受,也是智能感受最强的一类,每一种硬件方式都有适合的场景,这个是我们需要去权衡的。

style="font-size: 16px;">诞生 style="font-size: 16px;">——纯语音交互

澳门新莆京33375.com 7

语音交互界面VUI (Voice User Interface) 并不是全新的概念,它的前身是交互式语音应答IVR (Interractive Voice Response) 。二十世纪九十年代,交互模式的语音应答IVR正式诞生,代表了VUI发展的第一个重要时期。用户可直接通过电话进入服务中心,利用数字对内部系统进行命令操作。

在以设计师的身份参与过程中,我们更多的是以设计的视角和硬件、场景、技术等进行搭配合作,所以在过程中,会参考多方面的因素,影响最后落地的结果。

IVR存在的主要缺点有:

感知层面的设计策略:视觉层

  • 通常用于单轮任务
  • 交互方式较为单一
  • 不能进行中途打断

澳门新莆京33375.com 8

在与系统的交互过程中,如果出现了失误,用户只能挂断重来,这使得整个交互过程极不流畅,而用户也一直处于相当拘谨的状态下,与如今语音交互轻松自然的氛围相去甚远。

在2.0初期,我们先整理了最直接的感官层的一部分——视觉感受,以此为基础为产品定调,以最直接的表现层为手段帮助产品建立视觉体系。

style="font-size: 16px;">普及 style="font-size: 16px;">——语音和屏幕结合交互

首先我们内部脑暴统一同步了本次升级的目标:让小蜜更智能,更有服务感。一个是本身我们在做的事情就是智能相关的研究,另外在落地的场景访客中心承载的也是服务的属性,所以在设计方面就抓取了两个心智方向的关键词:智能、服务。

新一代的VUI更多指的是人通过自然语言与计算机进行交互,所以可认为VUI是人工智能时代下的人机交互代表

澳门新莆京33375.com 9

各大公司都推出了自己的语音助手,例如微软的cortana,谷歌的Google OK和苹果的Siri。这些语音助手结合视觉和听觉,同时使用语音和屏幕进行人机交互。发展到这个阶段,就打破了原先IVR仅能用于单轮任务的局限性,使得语音交互有了多轮对话的可能性。

在关键词的引导下,先建立情绪版,整合出表现层的特性。

澳门新莆京33375.com 10

澳门新莆京33375.com 11

近两年,各大公司都推出了自己的智能家居音箱,例如Amazon echo和Google home这类的纯语音设备。在未来的生活和工作场景中,此种语音交互是一个新的入口,提供了更灵活的交互方式。在未来的某一天,人们必然会放弃屏幕和手势的操作,直接通过语音进行远距离的设备控制,而这正是各大公司抢占语音市场的原因。

抽出智能感受类的关键词,可以是抽象或者具象的描述。

VUi设计原则

澳门新莆京33375.com 12

VUI设计是一个以用户心理模型为中心的设计过程,目的是满足用户喜欢快餐的心理,只有创建出用户习惯的,适应的并且便捷的方式,这种设计才有可能被大众接受,赢得消费者的信赖。

接着整理出服务相关的视觉属性。

下面,小线菌结合各路资料总结了语音交互设计的三条基本原则:

澳门新莆京33375.com 13

前提:能用 style="font-size: 16px;">——切勿让用户有认知负荷

澳门新莆京33375.com 14

语音交互呈现给用户的主要是听和说,提供给用户的大多为瞬时不长久存在的信息,这导致用户没有可能去回顾设备的输出。声音对于人类来说更多是短暂的记忆,人们不可能一下子记住很多新信息,所以VUI的设计原则之一便是不能让用户有认知负荷,配合人类的短时记忆功能

根据关键词的延展,得到了视觉语言的方向,但是在推导中我们发现智能和服务有些画面更像是互补色之间的关系,有一定的对立面,所以要从中调和每个关键词在界面中的占比。同时要考虑是不是有减少两者冲突的办法,所以在多次尝试后决定将1.0版本中的机器形象换成真人。

要求:可用——赋予人格化,切勿好为人师

首先在行政楼场景中,真人会带来更多的亲切感,与服务场景更契合;

语音交互中建立人机之间的亲密关系才是抓住用户的关键,语音中包含了音量以及语调、语速、语气,这些因素可以更好地传达人的情绪,使得情感的传递更为直接。同时,如果智能设备有着一个令人着迷的个性,相信人们会更愿意与它进行互动并建立关系。

其次界面关键词的分配方面也会有考量,在氛围中我们更希望带来智能感受、在对话中我们更希望是亲切的服务感,因此真人的形象出现是一个比较合适的策略。

同时,VUI无需暗指用户需要学习如何发出命令,诸如“如果需要XXX,请说/做XXX”此类提示。这种提示带有一些按键语音客服的痕迹,类似10086的“业务查询请按1;手机充值请按2;业务办理请按3;人工服务请按4”。这些提示模拟了典型的按键界面(按键语音客服),以一种老师的姿态教育用户应该如何交流。

而且服务的视觉概念也从我们常常感知到的二维变成了多维的角度,从单一的界面变成了人设、服装、肢体语言、面部表情等多方结合的综合体。因此这两个关键词延展出来的部分就有了各自的分工:智能感更多的体现在界面氛围上;服务感更多体现在人物上,两者结合的会更加润滑。

style="font-size: 16px;">目标:易用——对话准确高效且相关

下图是关键词占比的界面尝试过程灰机稿。

比如,当系统问用户,你的主要症状是什么?若用户说的是发烧和感冒,系统就要理解用户说的是两个症状,针对这个事情,系统需要进行回复两种不同的症状解决方式。

澳门新莆京33375.com 15

但在目前的语音交互中,却多数会出现这样的情况:

在尝试过程中,画面一步步清晰了起来,智能 服务也能更多体现出来,最终通过提炼过程中的视觉语言,形成了最终的画面。

“我想吃麻辣烫”

style="font-size: 16px;">“为您推荐XXX,销量XXX,价格XXX,是否购买”

“有没有更便宜的”

不识别

澳门新莆京33375.com 16

或是...这样的:

在整体视觉感受设计的同时,人物的视觉点也在同步进行,我们对人物进行了性别、着装、动作、面部表情的设定,整体目标以之前服务感中总结出的友善、轻松为关键词。

“这一周哪天是晴天”

不识别

“今天适合穿什么衣服”

答不对题

澳门新莆京33375.com 17

要解决上述交互层面的认知问题,关键在于两点,一是语音识别准确率,另一个则是自然语言处理水平。

最终画面(其中一款服装是考虑之后场景的拓展性,整个以智能感受为主)。

我思故我在

澳门新莆京33375.com 18

无论是何种设计原则,都需要建立在语音交互的意义之上,而语音交互的意义,便在于距离感

感知层面的设计策略:听觉层

在日常生活的大多数情况中,我们其实并没有必要使用语音交互,比如进入一家餐厅我们可以直接使用门口的点餐机下单,执行语音下单操作并没有多大意义;再比如如果我们一回到家灯的开关就在右手边,那么语音开灯就显得多此一举。

在描述完视觉设定后,来看一下听觉的方面,也就是语音的互动。

相反,只有我们有了距离感,才能真正发掘出语音交互给我们带来的便利。所以如果想让人们恰如其分地使用这些智能硬件,一定要在他们有这种距离感的前提下,比如一键唤醒,“我要打车”,“订一份凉拌面”,“看一下我快递在哪”,这样既利用了手机随身携带的优势,又发挥了语音的价值。

澳门新莆京33375.com 19

我思故我在,一件事物只有当拥有本身的意义之后,才能被人发掘出后续存在的价值,而对于语音交互来说,而要找到这种距离感,需要对人们的每一个生活场景和日常行为进行细致的观察和深入的思考。

首先,语音互动的核心能力还是在算法上面,因此语音交互也是和技术能力相辅相成,5号小蜜的技术手段也比较丰富,主要是以下几种:ASR、TTS、QA、面部跟踪、面部重塑面部跟踪渲染等AI技术模块。理论上只要获得充足的人物视频 语音数据,技术可模拟任意指定人物。数据越多,面部和语音的还原度越逼真。

参考资料:

澳门新莆京33375.com 20

智能音响初体验和语音交互深思考 -李洺宇

其中,为获取原始数据,需要进行数据的采集,主要是在采集室里对语音、图像进行收录,大致技术的流程如下所示:

语音交互设计的流程及方法 -阿里TXD

澳门新莆京33375.com 21

Voice User Interface Insights -Prototypr返回搜狐,查看更多

在这些技术背景下,语音的互动更多的是考虑如何在与真人的对话中,体验更加顺畅。

责任编辑:

下图为核心的Flow:

澳门新莆京33375.com 22

在小蜜与用户交流的部分做了标记,也是语音交互的核心内容区。为了方便整个流程连贯起来,还是从最初的部分开始,讲述一个完整的剧本。

用户从行政楼走进,一般会有几种意图:开会(查找会议室)、来访(了解阿里文化等)、参观(闲聊)根据这些场景我们进行了两个关键节点的设定:吸引、交流。由于结束对话属于弱互动,所以暂不列入重点。

澳门新莆京33375.com 23

澳门新莆京33375.com 24

澳门新莆京33375.com 25

以上为语音互动的核心部分,其余还有用户结束对话的声音动作反馈——“再见” 挥手等;未知问题的回复处理——进行多种兜底话术的配置;中途离场的用户——小蜜15S内回复初始状态等。

物理层面策略:硬件、场景

澳门新莆京33375.com 26

在考虑界面语音互动的同时,也要考虑硬件方面待给体验的影响,比如设备的主要构成,MIC、音响、支架、外观显示器等主要硬件。

澳门新莆京33375.com 27

MIC的技术手段是单轨拾音,因此需要保证在有效距离内收音(机器前会张贴最佳距离的脚印贴纸,以保证对话收音)。显示器会制作可调整的15°角倾斜,考虑反光、身高视角等情况。机器总高度控制在1.8M,用户眼睛与小蜜眼睛保持平视,最佳观看高度在1.7M左右的平均值,以覆盖大部分用户的使用感受。

(年会亮相图)

澳门新莆京33375.com 28

下图为整个硬件的构成部分以及运作传输图。

澳门新莆京33375.com 29

在硬件组装完毕后,会进行收音的测试,在实际使用场景 – 公共环境(嘈杂环境)下用录音(ASR识别)的方式来收集不同位置的收音状况(保证同等条件下,比如分贝相同)来收集数据,最后判定这个MIC的硬件是不是最合适的。

澳门新莆京33375.com 30

经过综合多方位设计后,设备才能见到雏形,本身智能互动领域就是多维度的综合体,设计师参与在其中也会从单一的视觉、交互维度去向更全面的维度思考,使每一个环节串联起来,打造更好的UX体验。

最后的思考

从这次的项目来看,我们在做事情的初期就需要有一个完整的目标定义,Lot设备的应用场景考量等等,这次综合升级只是考虑了单一的行政场景,解决的是咨询类的问题,因此设计的链路也是单一且浅薄的。但是产品的发展一定是要向商业化迈步的,比如:热门的导购场景,与淘系新零售的战役契合,结合淘宝生态配合多种垂直行业,机器人作为智能客服出现在售前、售中、售后的服务等等。

设计也需要在每个场景中分别做出判断,行业通用的部分沉淀,以及行业特性的个性化设计思考,都是需要不断的去尝试和打磨的。而智能互动设备作为一种趋势,也是设计师去发挥所长的沃土。

本文由 @喵了个汪 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Pixabay,基于 CC0 协议返回搜狐,查看更多

责任编辑:

版权声明:本文由澳门新莆京娱乐app发布于科学技术中心,转载请注明出处:澳门新莆京33375.com智能互动设备的探索设计,语