苹果ELEGNT台灯机器人paper解读
Published:
苹果在这篇paper中,从心理学和人机工程学、用户行为调研等方面,给出了结论:相比只有功能型的机器人,融合了意图、注意力和情绪的机器人会更受欢迎。 基于此,苹果把台灯作为原型,使用6自由度机械臂作为台灯主体,台灯加入了视觉、触觉和激光投影。激光投影可以投射各种提示信息和视频,视觉可以与人互动。 例如,苹果在paper中介绍了几种功能:
- 把要浇花、绘画指导等通过激光投射出来,很直观的提示方式;
- 会把水杯、水果等推向你,就像人一样给你东西吃;
- 会随着音乐律动跳舞;
- 在完成功能过程中,与你不断互动,融入了情感。 真的感叹苹果的创意和对人的喜好的研究水平,大家对于苹果的这个机器人怎么看?
论文地址:ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
图1:我们的研究假设概述:机器人的移动不应仅仅是为了实现功能目标并满足限制条件,例如,机器人通过最短的可行轨迹(功能驱动轨迹)从初始状态移动到目标状态;而且在交互过程中,机器人还应利用动作向人类伙伴表达其内部状态,即通过表达驱动轨迹来表达机器人的意图、注意力、态度和情感。
摘要
在人类互动中,姿势、手势和眼神等非语言行为对于有意识和无意识地传达内心状态至关重要。为了让机器人与人类更自然地互动,机器人的运动设计同样应在满足任务完成、空间限制和时间效率等传统功能考量的同时,融入诸如意图、注意力和情感等表达性元素。在本文中,我们介绍了一款灯状机器人的设计与原型制作,该机器人探索了运动设计中功能性与表达性目标之间的相互作用。我们采用设计即研究的方法,记录硬件设计过程,定义表达性运动基元,并勾勒出一系列交互场景故事板。我们提出了一个在运动生成过程中兼顾功能性和表达性效用的框架,并在不同功能导向和社交导向的任务中实现机器人行为序列。通过一项用户研究,在六个任务场景中对比表达驱动型运动与功能驱动型运动,我们的研究结果表明,表达驱动型运动显著提高了用户参与度和对机器人特性的感知。这种效果在社交导向的任务中尤为明显。
关键词
人机交互;非拟人机器人;表达;设计即研究;机器人运动;心理理论
ACM引用格式
胡雨涵,黄沛德,穆利·西瓦普拉普,张建. 2018. ELEGNT:非拟人机器人富有表现力且具功能性的运动设计. 见《设计交互系统会议论文集》(DIS’25会议). 美国计算机协会(ACM),美国纽约州纽约市,13页. https://doi.org/XXXXXXX.XXXXXXX
1. 引言
在本文中,我们提出了ELEGNT,这是一个针对非拟人机器人的富有表现力且具功能性的运动设计框架。我们认为,机器人的运动不仅应满足功能目的和限制条件,还应以 “优雅” 的方式运动——在人机交互(HRI)过程中,利用其运动向人类伙伴表达意图、注意力和情感。我们展示了将功能性和表达性效用融入运动设计的实践,以及一项旨在了解表达性运动效果的用户研究。
机器人越来越多地作为助手和伙伴进入家庭,因此了解它们如何与人类共存、与人互动以及在日常生活中履行功能和社交角色至关重要。与大多数动物一样,人类对运动及运动中的细微变化高度敏感。现有机器人研究表明,机器人的运动不仅可以执行实际功能,还能传达机器人的目的、意图、状态、特性、注意力和能力 [17]。
虽然许多研究将实用型机器人(如执行家务任务的机械臂)与社交型机器人(如提供情感支持的治疗机器人)区分开来,但我们认为,任何与人类交互的机器人,即使主要为实用功能而设计,也体现了社会价值,其设计和行为应相应地进行塑造。例如,在与人类队友协作完成操作任务时,机器人不仅应考虑诸如拾取和放置物体等功能性动作,还应采用能够传达其意图、状态甚至性格特征的表达性运动。这些表达性线索可以帮助人类协作者预测机器人的行动,建立信任,并在协作过程中营造舒适和愉悦的氛围。
我们的研究解决了几个问题:如何为与人类交互的机器人设计兼具表达性运动和功能性动作?设计空间和运动基元是什么?与仅具有纯粹功能性运动的机器人相比,用户如何看待采用表达性运动的机器人?
在本文中,我们展示了设计一款灯状非拟人机器人的实践,该机器人配备一个6自由度机械臂以及一个装有灯和投影仪的 “头部”。作为常见的家居外形,这款灯状机器人通过灯光和运动,为与环境及用户互动提供了丰富的设计和交互空间——例如,通过照亮特定空间或物体来引导用户的注意力。
我们采用 “设计即研究”(RtD)[13] 方法,对机器人的外形、运动和交互场景进行迭代设计。我们制定了兼具功能性和表达性效用的运动目标——功能性效用使机器人在物理和任务空间内从初始状态到达目标状态,而表达性效用则强调实现这些目标所采用的轨迹。后者纳入了向用户表达和传达机器人的意图、注意力、态度和情绪状态等考量,如图1所示。我们用身势学和空间关系学基元详细阐述了表达性运动的构成要素。通过视频原型制作和故事板绘制,我们展示了灯状机器人在家庭环境中的一系列用例和任务场景,这些场景按照机器人能动性以及任务的社交性与功能性维度进行组织。我们的工作旨在为未来将富有表现力的机器人融入日常生活提供设计灵感和框架。
为了评估融入表达性运动的益处,并比较表达性效用与功能性效用的结果,我们进行了一项用户研究,在各种任务场景中对比表达驱动型运动与功能驱动型运动。参与者(n = 21)需观看六个不同任务中的人机交互视频,每个任务有两种机器人表现形式。观看完每个视频后,他们根据参与度、智能程度、拟人程度、互动意愿、连接感和机器人性格等指标对其感知进行评估。
结果显示,与仅由功能驱动的运动相比,融入表达性效用的运动显著提高了用户评分。不同任务的感知有所不同,表达性运动在娱乐和社交对话等社交导向型任务中尤其有益。结果还表明,参与者的年龄和职业背景存在人口统计学影响。定性分析揭示了关于感知到的机器人特征以及用户如何从机器人运动中推断其状态的更多见解,这表明有可能根据个人偏好定制这些运动,并使其与包括语音和灯光在内的其他交互方式保持一致。
我们希望所提出的框架和研究结果将激发未来关于非拟人机器人表达性运动生成的研究。
2. 相关工作
在本节中,我们回顾了人机交互领域中非拟人机器人的相关工作,重点关注机器人表达和以运动为中心的设计。此外,我们还讨论了来自动画和角色设计的相关工作,这些工作对本研究有很大启发。
图2:现有机器人形态范围:拟人型、拟物型和家电型。
2.1 用于人机交互的非拟人机器人
机器人的形式和外观会影响人们对它的感知、与之交互的方式以及与之建立长期关系的方式 [6]。现有的机器人形式可分为拟人(类人)[22]、拟物(类动物)和家电类,如图2所示。虽然具有拟人设计的机器人有利于提高接受度 [11],但研究也表明,用户对机器人形式的偏好取决于任务和环境 [15]。机器人的外观应与其能力和用户期望相匹配。
拟人机器人使用类似人类的手势和表情,如从人类行为映射而来的身体姿势和面部表情,来传达各种内部状态。非拟人机器人没有明确的表达词汇或映射方式。现有研究表明,非拟人机器人有多种表达渠道,包括运动 [7, 17, 27, 32, 37]、灯光/颜色 [30, 33]、声音 [28]、触觉表达 [8, 19, 20] 等。例如,Shimon [18] 是一款音乐即兴创作机器人,它融入了一个具有社交表现力的 “头部”,用于传达其节奏、情感内容、强度等内部状态,以及在机器人与人类音乐家之间进行轮流和注意力管理,支持共同的音乐注意力。“迎宾机器” [3] 由一个在大球顶上滚动的小球构成,旨在在初次相遇的情境中传达积极和消极的社交暗示。现有研究表明,即使是诸如 “靠近” 和 “避开” 等抽象而简单的运动,在表达机器人意图方面也很有效,能唤起用户的积极和消极体验。
本研究深受《心中有运动的机器人设计》[17] 一文的启发,该文介绍了以运动为中心的设计技巧,包括角色草图绘制、视频原型制作和 “奥兹巫师” 研究。他们通过非拟人机器人和机器人物件的设计阐述了方法和设计策略。他们认为运动是机器人的动态可供性,有助于向用户暗示机器人能够进行的潜在动作和交互。在设计过程早期就考虑了机器人的表达性运动,并且在设计迭代中,它可能与机器人硬件外观和用例共同演化。许多近期研究 [14, 25] 将机器人设计的重点从逼真外形的制作转移到运动和动觉创造的过程。考虑机器人运动的表现力很重要——设计能够表达机器人目的、意图、状态、情绪、个性、注意力、响应能力、智能和能力的运动 [34]。在本研究中,我们进一步拓展了以运动为中心的设计理念,通过基于现实世界交互场景的实例化运动设计,并进行用户研究,以评估表达驱动型运动与纯粹功能驱动型运动的效果。此外,我们的工作遵循 “设计即研究” 方法的常见实践,结合了以人工制品为中心的研究 [9] 和思辨性设计探索 [2, 21]。
2.2 用于表达的运动设计
运动在人类感知和与世界交互的方式中起着基础性作用。与许多动物一样,人类对运动高度敏感 [16]。运动在联合活动的协调和执行中至关重要,用于传达意图并指向共同关注的对象 [10]。
对表达性运动设计的见解可以从机器人领域之外的领域汲取,如动画、行为科学和表演艺术 [31]。在这些领域中,运动被用作一种交流媒介,使物体、角色和形态能够传达情感、意图和故事。例如,在角色动画中,通过运动、时间安排和场景布置,像点、线和形状这样的抽象形式被赋予了生命。一个经典的例子是动画短片《点与线》[24],其中所有的表达都是通过极少的视觉元素和运动来传达的。皮克斯的标志性动画《小台灯》[23] 也是灯状外形的主要灵感来源,它以两个台灯角色为主角,展示了简单的运动如何传达故事、关系和情感。这些作品突出了即使是简单几何形状的运动,在叙事和表达方面也具有强大的力量。
研究还表明,运动不需要详细模仿人类形式就能被视为有意或富有表现力。人类擅长解读抽象形状的运动,点光源显示研究就证明了这一点 [29],参与者能够从极少的视觉线索中对活动进行分类并识别个体。除了识别之外,人类常常将内部状态、特征和意图赋予抽象运动,海德尔 - 西梅尔错觉 [1] 就是例证,以暗示性方式移动的简单几何形状被认为具有目的或个性。这种现象与心理理论 [5] 密切相关,心理理论描述了人类从观察到的行为中推断心理状态和意图的能力。
从动画原理中汲取灵感,并利用人类对运动的天生敏感性和投射,我们旨在设计并为实体机器人编程,使其运动能够有效地传达富有表现力和意图性的行为。这些原理构成了我们工作的基础,将运动的表现力与功能考量相结合,以创造引人入胜且有意义的交互。
3. 方法
在本节中,我们概述了一款灯状机器人的设计过程,该机器人由一个人机交互研究人员、机器人专家和动画师团队开发。通过迭代头脑风暴、草图绘制、故事板绘制以及硬件和软件原型制作,我们探索了一系列设计考量因素,包括外形选择、运动设计和潜在用例。我们的目的并非提供设计空间的详尽分类,而是突出能够启发和指导未来研究与实践的关键设计机会和基元。
图4:台灯机器人的硬件组成(左);人与机器人之间的交互方式,包括手势、言语交流、灯光与投影显示以及触摸交互(右)。
3.1 机器人外形设计
对于家用机器人已有诸多探索,比如吸尘机器人[38]、桌面机器人助手[35]、机器宠物[12]以及人形机器人[26]。如图2所示,这些机器人通常呈现出拟人、拟物或家电类的外形。现有人机交互研究表明,机器人的外形能够塑造用户期望,并影响交互的可行性。例如,用户可能期望人形机器人能够解读面部表情和手势,而吸尘机器人可能引发较少的社交互动。使机器人的外形与用户期望及功能能力相匹配,是一项关键的设计考量因素。
受《小台灯》[23]中角色的启发,我们采用了台灯的外形尺寸。它虽主要属于家电类外形,但融入了微妙的拟人元素——比如台灯的 “头部” 以及连接 “头部” 与底座的 “手臂”,让人联想到头部和颈部的外观。台灯的灯光和摄像头也可映射为机器人的 “眼睛”,为传达机器人的注意力和目的提供了设计契机。
在制作机器人硬件原型时,我们考虑了美学、表达性和实用性等方面。从实用性角度出发,我们希望机器人具备广泛的运动范围,使其能够覆盖合理的交互空间——例如,从照亮桌子转换到照亮沙发。我们探索了台灯机器人的各种放置方式和配置,包括吊顶式、桌面式和落地灯式设计,如图3所示。落地灯虽然能提供更广泛的空间覆盖范围以及潜在的移动性,但它也带来了诸如控制复杂性增加以及交互过程中发生物理碰撞风险更高等挑战。相比之下,吊顶灯将这些风险降至最低,但交互能力有限,因为它们只能从自上而下的角度提供照明。此外,在交互过程中,吊顶机器人的运动往往容易被忽视,因为它们处于用户视线之外。除了空间覆盖范围,我们还希望机器人利用动态运动来实现表达目的,例如点头、摇头或前后倾斜。因此,必须合理安置电机,以适应这些运动范围。
我们还探索了其他具有类似运动范围的非拟人外形,包括受花朵和长颈鹿启发的设计,以及像雕塑和艺术品这样的抽象外形,如图3所示。尽管本文主要关注桌面台灯的整合,但我们设想某些设计原则可能适用于不同的具体形式。例如,运动速度、停顿和空间关系等可能具有普遍适用性。然而,一些设计模式,如点头手势,可能会因具体形式的不同而有不同的映射方式。在具有明显头颈部关系的外形中,这个手势可能很容易被识别,而在更抽象的外形中,它可能会引发更宽泛的解读。
通过迭代快速原型制作,我们整合了一个机器人硬件平台,以便进一步测试和部署,如图4(左)所示。该机器人由一个重新利用的6自由度机械臂[36]、一个3D打印的塑料台灯 “头部”(内置LED灯、激光投影仪和一个内置摄像头)以及一个朝下的外置摄像头组成。此外,它还配备了语音系统,用于与用户进行倾听和对话。
3.2 生成机器人运动
现有研究表明,在传达故事和唤起情感方面,运动往往比外形发挥更重要的作用。角色和情感可以通过运动的时机和特质来传达。例如,海德尔 - 西梅尔错觉[1]表明,即使是简单的几何形状,如果它们看起来是自主移动的,也能被视为人物形象。人类会自然地将角色和隐喻状态投射到移动物体上。通过有意设计这些运动,我们可以让人们对机器人形成特定的角色认知,在机器人与人类之间建立社会联系并增进包容度,使交互更加愉悦。
3.2.1 框架制定
为了考虑同时兼顾功能性和表达性目标的运动生成问题,我们提出该问题的高层次表述,以指导低层次的轨迹设计与整合。我们将机器人运动问题在数学上表述为一个由元组(𝑆, 𝐴, 𝑃, 𝑅)定义的马尔可夫决策过程(MDP)。在时间步 𝑡 ∈ 0, 1,…, 𝑇,状态 𝑠𝑡 ∈ 𝑆 由机器人关节角度、工具状态和环境状态组成。例如,工具状态包括开灯和关灯,以及投影图像。环境状态包括感知到的用户状态以及环境中其他感兴趣的物体。动作 𝑎𝑡 ∈ 𝐴 由关节角度的变化和工具事件组成。转移函数则定义为 𝑠_{𝑡 + 1} = 𝑃(𝑠𝑡, 𝑎𝑡 )。为简便起见,我们也将轨迹表示为 𝜏 = (𝑠0, 𝑠1,…, 𝑠𝑇 )。奖励函数 𝑅 由两部分组成:功能效用 𝐹 和表达效用 𝐸。
3.2.2 功能效用与表达效用
在台灯机器人的情境中,功能效用 𝐹 驱动旨在实现物理目标状态的运动,例如,以用户阅读活动的初始状态或明确的口头请求为起始,机器人移动至面向书本的位置,打开灯光,并投影辅助信息,如书本内容的可视化图像。功能效用是根据在目标状态下任务的完成程度来衡量的,比如是否移动到期望位置、是否开灯以及是否投影了准确信息。
另一方面,表达效用 𝐸 促使机器人采取旨在向人类交互伙伴传达其特质、状态和意图的行动。例如,机器人可能会在移向一本书之前先看向它,或者通过歪头来表现出好奇,以此增加表达效用。表达效用可以通过用户对机器人的感知来衡量,包括感知到的智能程度、直观性、交互质量、信任度、参与度、连接感以及使用机器人的意愿。借鉴心理理论(ToM)——即人类将信念、欲望、情感和意图等心理状态归因于他人的认知能力——我们在表达性运动库的设计中纳入以下表达类别,以捕捉表达效用。
- 意图:意图指机器人行动背后的目的以及对其即将进行的运动的预期。例如,当机器人伸出手时,用户能够识别机器人想要捡起哪个物体以及打算用它做什么,从而在需要时进行合作、监督或干预。对于台灯机器人而言,它可能会在移向目标物体或与之交互之前,短暂地将 “头部” 转向该目标。这种行为表明了机器人的意图,指示了注意力的转移,并向用户暗示接下来的行动。
- 注意力:注意力指机器人的关注点所在,目光是这种关注的一个重要指标。例如,当机器人看向一个物体时,它可能正在对其进行分析或为即将到来的行动做准备。在台灯机器人的情境中——摄像头和灯光充当隐喻的 “眼睛”——我们设计目光行为,使机器人看向用户时可以表示关注,比如当用户说话时。同样,机器人可以通过注视或照亮与用户相同的物体或事件来表现出共同关注。例如,当用户操作一个物体时,机器人可能会注视用户的手和被操作的物体。
- 态度:态度指机器人对人、物体或事件的立场。例如,机器人可以通过点头或摇头等动作来表达同意或不同意。它还可以通过改变运动特征来传达对指令或自身行动的态度或信心——例如,停顿表示犹豫,快速而果断地移动表示自信。
- 情感:虽然机器人不像人类那样体验情感,但它们模拟情感表达的能力对于创造直观、引人入胜的交互至关重要。例如,机器人可能会使用明亮、轻快的运动来传达快乐,缓慢的运动来暗示放松状态,低下头表示悲伤,或者采用突然、急促的动作来表示恐惧或其他负面情绪。
图5:富有表现力的机器人运动设计空间示意图,其中包含身势学和空间关系学运动基元。
3.2.3 构建模块:表达性运动设计基元
通过动画师和机器人设计师的协作,我们开发了一个设计空间,其中包含几个用于创建表达性运动的基元,如图5所示。从人类和动物的非语言行为中汲取灵感,我们设计了用于表达意图、注意力、态度和情感的运动。与人类类似,机器人可以使用身势学——富有表现力的身体运动——来传达信息和表达心理状态或态度[4]。身势学包括空间(与姿势相关)和时间特征作为设计基元。对于空间特征,机器人可以采用隐喻性手势来表示各种状态。例如,具有头颈部构造的台灯状机器人可能会点头或摇头来展示态度,或者低下头来传达悲伤。台灯的长臂关节也可以被想象为下半身,从而实现诸如 “摇尾巴” 以表示兴奋或 “坐下” 以暗示放松的手势。对于时间特征,机器人可以调整速度、停顿和加速度(或急动度)等参数来传达态度和情感。例如,添加停顿和急促的动作可能暗示犹豫或缺乏信心。改变运动速度可以表示不同程度的情感唤起:快速、急促的运动可能表示兴奋或恐惧等高唤起状态,而较慢、平稳的运动可能传达平静或悲伤。
与人类类似,机器人可以使用空间关系学——对空间距离的管理——来表达它们与周围环境及人的关系。这有助于设定期望、建立沟通渠道、创建边界并表明情境。机器人的空间关系学可以涉及静态和动态运动基元。对于静态基元,机器人可以相对于物体或人来定位自己,以传达注意力和意图。例如,将目光投向一个物体并使用灯光或投影突出它,可以表示关注或传达情境。将 “头部” 指向远离物体的方向可能表示忽视或不感兴趣。近距离接触——比如触摸一个物体——可以表示喜爱或兴趣。对于动态基元,机器人可以使用运动来表达态度或意图。接近或避开一个物体可能反映机器人对它的立场,而在物体或事件之间改变方向可以表示注意力的转移。动态行为还可以结合灯光与运动的使用来引导用户注意力或强调某个要点,例如用于提醒或说服性提示。
在勾勒这个设计空间时,我们旨在说明身势学和空间关系学如何作为生成机器人表达的运动基元。这个框架并非提供详尽的设计参数或选项列表,而是旨在启发和引导进一步的探索与创意生成。
图6:家庭交互场景示意图,按照机器人的主动性(主动型与被动型)和任务情境(功能导向型与社交导向型)进行分类。
3.3 交互场景
经设计,台灯机器人的主要功能是照亮空间并辅助用户活动。由于配备了投影仪,机器人能够通过在墙壁、桌面及其他表面进行现场投影来扩展这一功能。这一能力使机器人可以应用户要求或主动投射辅助信息,以提醒或支持正在进行的活动。例如,它可以投射教学视频来指导某项任务,或者展示创意绘画以提供灵感。通过向环境中的物体投影,机器人还能够传达意图或提供背景信息,比如在植物附近显示水滴图标,提醒用户给植物浇水。
我们设想台灯机器人可参与社交导向型和功能导向型两类任务。图6通过迭代故事板和视频原型展示了一些交互场景和任务设计的成果。在x轴上,我们考虑人机交互的主要目标。在功能导向型任务中,台灯机器人充当助手或工具,提供信息展示、为用户活动提供所需照明、调整睡前灯光,以及提醒用户日程安排或活动。相比之下,社交导向型任务将台灯机器人定位得更像朋友或宠物,强调陪伴和娱乐功能。例如提出创意想法、向访客介绍房间、进行有趣的社交互动、播放音乐,以及投射氛围灯光来提升整体用户体验。
第二个维度(y轴)反映了机器人在人机交互中的主动性,根据任务区分主动和被动角色。在机器人主动型任务中,由机器人发起交互。例如发送提醒、督促用户养成习惯,或提供创意建议。在机器人被动型任务中,机器人响应用户的请求或行动。例如,在摄影打光任务中,机器人根据用户的口头指令开启灯光,并根据手势调整位置。同样,睡眠灯可能会根据用户的动作或语音命令开启或关闭,比如在用户要求时或检测到用户起床时开启夜灯。
为适应广泛的任务需求,机器人采用多种方式,并根据任务要求激活不同的输入/输出通道和技能。一个高级任务管理器会解读台灯的初始放置位置、环境及上下文信息,以便在初始化过程中确定并激活合适的状态空间。图4(右)展示了机器人可能响应的各种方式,包括用户活动、指示性手势、语音命令和触摸交互。机器人利用关节中的扭矩传感,并且可能在表面集成触摸传感器,使其能够检测触觉输入,并在需要时切换到顺应模式。
通过迭代设计过程,我们挑选了六个任务场景,用于进一步实现功能驱动和表达驱动的机器人运动,以开展用户研究。这一选择涵盖了代表性空间的所有四个区域,包括三个功能导向型任务和三个社交导向型任务,具体内容见4.2节。
4. 用户研究
我们的研究问题是,由表达效用驱动的运动是否能提升用户对机器人的感知以及他们在人机交互中的体验。为探究这一问题,我们对比两种机器人情形:一种仅采用功能驱动的运动(公式3中γ = 0),另一种除功能驱动运动外,还融入表达驱动的运动,虽实现相同的目标状态,但通过不同的轨迹(γ > 0)。我们的目标是确定在机器人运动中融入表达设计是否会影响用户交互结果,若有影响,程度如何,以及这些影响如何随任务背景而变化。
4.1 研究问题与假设
- RQ1:除功能驱动的运动外,添加表达驱动的运动在多大程度上影响用户对机器人的感知?
- H1:与仅采用功能驱动运动的机器人相比,用户会认为结合了表达驱动和功能驱动运动的机器人更具吸引力、更拟人且更智能。
- RQ2:任务背景是否会影响对运动的偏好?
- H2:用户的感知会因任务背景而异,表达驱动的行为在功能导向型任务中较不受青睐,而在社交导向型任务中更受欢迎。
4.2 方法
我们采用了组内研究设计,每位参与者观看机器人完成六个不同任务的视频,视频以随机顺序呈现。观看完每个视频后,参与者对他们对机器人及其与视频中人类交互的感知进行评分。我们还鼓励他们解释评分背后的原因,以深入了解哪些具体的机器人行为影响了他们的偏好。
为制作视频演示,人机交互研究人员和动画设计师团队使用3.2.3节中提出的设计基元,迭代设计并完善预先录制的机器人运动轨迹。然后使用现成的WidowX机械臂控制器来实现这些轨迹,以确保交互流畅。本研究中使用的视频包含在补充材料中。
我们设计并实施了六个场景,每个场景有两种情形:
- F:仅具有功能驱动运动的机器人。
- E:兼具功能驱动和表达驱动运动的机器人。
以下是六个任务场景及机器人运动描述的详细信息:
- 摄影打光:机器人响应用户手势,移动并为摄影提供所需的照明条件。
- F:根据用户手势和物体位置移动;
- E:通过向前倾斜来表达对物体的好奇,检测到指示性手势时,通过回头看向用户,将机器人对用户指令的关注融入运动中。
- 投影辅助:机器人观察用户任务,并提供相应的视频投影来指导任务。
- F:移动到目标投影位置,并投影相应视频;
- E:对用户活动表现出好奇,并通过目光方向展示共同关注。
- 故障指示:用户为机器人指示一个无法到达的目标位置,机器人向用户显示错误信息。
- F:尝试朝目标方向移动,到达极限后,口头输出错误信息;
- E:移动前暂停以显示犹豫,到达极限时伸展身体以显示努力,在给出语音反馈前回头看向用户并摇头。
- 提醒喝水:机器人打断用户活动,发出喝水提醒。
- F:移动指向水杯,亮起灯光,并发送语音提醒;
- E:移动到F情形中描述的目标姿势,将水杯推向用户,在发送语音提醒前注视用户。
- 社交对话:机器人扮演社交伙伴的角色,与用户就日常活动进行社交对话。
- F:以语音回应用户讲话;
- E:根据语音文本,使用动作作为非语言线索,包括注视用户、指向与讲话内容相关的物体、使用身体动作手势展示兴奋(舞蹈动作)和悲伤(低下头)的情绪。
- 播放音乐:机器人在用户日常活动时播放音乐以作娱乐。
- F:播放音乐但无动作;
- E:播放音乐的同时进行舞蹈动作,使动作节奏与音乐节拍一致。
4.3 测量
我们纳入六个维度的定量指标,以衡量对机器人的感知(拟人程度、感知到的智能、感知到的情感/性格)、交互质量(交互参与度、连接感)以及在现实生活中使用机器人的意愿。具体而言,参与者在0到100的量表上对六个陈述进行评分,以表明他们对上述方面的认同程度。此外,我们收集了参与者的人口统计数据,包括性别、年龄、机器人相关背景、表达设计相关背景(如表演艺术、心理学、动画、传播学)、一般共情水平(“我发现很容易对他人表达共情和理解”)、对机器人的一般接受程度(“与机器人伙伴互动我感觉很自在”)。在每个视频之后,我们通过询问“你会如何描述视频中的机器人?你喜欢或不喜欢这个机器人的哪些方面?”来收集关于视频的定性反馈。这使我们能够深入了解参与者选择的原因,并探索定量指标中未涵盖的关于感知的开放性想法。
4.4 参与者
我们通过在组织内部发送电子邮件和公告招募了30名参与者 。根据完成任务所花费的时间对回复进行筛选,排除用时少于十分钟的回复以及任何不完整的回复。这一过程产生了21名有效参与者(N = 21)。其中,8名女性,12名男性,1名参与者未透露性别。参与者年龄在26岁至51岁之间。在种族方面,10名参与者自我认定为亚裔,9名自我认定为白人,2名选择不透露种族。
图7:量化结果:比较在六种不同任务场景下,表情驱动(蓝色)和功能驱动(粉色)的机器人动作之间的感知评分。
5. 研究结果
本节通过定量和定性分析展示研究结果,以揭示在不同任务中,两种机器人状态下人们认知的差异。
图8:比较表情驱动和功能驱动动作的用户感知得分的t检验p值。
图9:参与者的人口统计学特征和背景对平均感知评分的影响
5.1 定量结果
为了验证假设1(H1),我们比较了两种机器人状态在不同指标上的平均得分,这些得分是在不同任务中进行平均的。表情驱动动作的机器人得分(均值M = 56.16,标准差std = 27.15)远高于仅采用功能驱动动作的机器人(均值M = 28.77,标准差std = 27.15)。韦尔奇t检验表明,这种差异具有统计学意义,t = 19.85,p < 0.0001。最大的差异体现在 “感知角色” 指标(t = 10.58),其次是 “拟人程度”(t = 9.32)、“参与度”(t = 8.80)、“连接感”(t = 8.50),然后是 “交互意愿”(t = 7.37)和 “感知智能”(t = 5.22),所有单个指标的p值均小于0.001,这表明这些差异具有统计学意义。因此,假设1得到支持。
图7描绘了表情驱动机器人(蓝色)和功能驱动机器人(粉色)在各种任务和评估指标上的平均得分(范围从0到100,得分越高越好)。x轴代表不同的任务,根据任务目的进行排列,从面向功能的任务,如摄影打光、信息投影或显示错误信息,到面向社交的任务,如音乐娱乐、社交对话和习惯提醒。结果显示,在大多数任务中,表情驱动机器人(蓝色)的表现优于功能驱动机器人(粉色)。这一趋势表明,对于面向社交的任务(x轴右侧),与面向功能的任务(x轴左侧)相比,表情驱动机器人的感知明显更好。
为了进一步研究这些差异,我们对每个任务和指标进行了统计检验(韦尔奇t检验),以比较表情驱动和功能驱动的机器人动作。得到的p值如图8所示,深色表示具有统计学意义(p < 0.05)。该表显示,对于面向社交的任务(播放音乐、对话、提醒喝水),表情驱动机器人在所有指标上的表现均显著优于功能驱动机器人。然而,对于面向功能的任务(摄影打光、投影辅助、故障指示),两种机器人在 “感知智能”、“交互意愿” 和 “参与度” 等指标上没有显著差异。因此,假设2(H2)得到支持。
为了了解参与者背景对其机器人认知的影响,我们进行了线性回归分析,以检验认知指标(认知平均得分)与背景变量之间的相关性,这些背景变量包括性别、年龄、一般共情水平、对机器人的一般接受程度、与机器人技术和角色设计相关的背景,如图9所示。我们的研究结果表明,年龄显著影响对表情丰富的机器人的认知,年龄较大的参与者对表情丰富的机器人的偏好较低(p < 0.001)。此外,我们观察到共情水平对功能型和表情型机器人认知差异的影响趋势:自我评估共情水平较低的参与者在看到机器人融入表情动作后,对机器人的喜爱程度提升更为明显。相反,自我评估共情水平较高的参与者受机器人表情动作融入的影响较小。我们还发现机器人接受程度与认知得分之间存在正相关。然而,这些相关性未达到统计学意义。此外,我们进行了t检验,以比较不同性别组、机器人技术背景组以及有无角色和表情设计相关背景(包括动画、心理学、表演艺术等)的组之间的认知差异。性别对认知没有显著影响(p = 0.2)。机器人技术背景是认知的一个重要预测因素,非机器人专家对机器人的评分高于机器人专家(p = 0.006)。与表情角色设计相关的背景是另一个重要预测因素,有经验的角色设计师和艺术家对机器人的评分明显低于其他人。对于上述所有组,他们对表情型机器人的评分均高于功能型机器人。
5.2 定性结果
我们对参与者关于单个机器人行为的反馈进行了定性主题分析,以更深入地了解他们评分背后的原因。我们确定了表情动作和功能动作背后的认知推理,以及与任务情境和其他交互方式的相互作用,如图10所示。
5.2.1 对机器人特性的认知
参与者评价具有表情动作的机器人更具吸引力、生动、无害,体现出 “幽默感”,“看起来很有趣”。参与者P4指出,表情丰富的机器人展示了更多机器人内部状态的信息,如情绪,而这些在仅功能驱动的动作中并不明显。几位参与者表示,在机器人播放音乐和跳舞的交互过程中,表情动作很有感染力:“…… 它似乎在配合她的活力,她跳得更起劲,机器人也跳得更带劲。这让我也想加入。这种协同作用很有力量!”(P12)
在定性推理中,参与者将具有表情动作的机器人赋予人类或宠物的特征,认为它有自己的驱动力和需求。许多参与者表示,表情丰富的机器人让他们想起 “小狗” 或 “孩子”。在故障指示场景中,P12描述表情丰富的机器人有 “坚韧的精神”。在播放音乐场景中,P1说 “它看起来玩得很开心”。
相反,参与者发现很难将人类特征赋予动作较少的机器人,并将这类机器人描述为 “工具”,或将其与现有的家用设备相比较。参与者评价仅具有功能动作的机器人 “无聊”、“太像机器”、“缺乏吸引力”、“没有感情”,并且可能会引发负面情绪,特别是在社交对话和播放音乐场景中。P3对其在对话中提出面向社交问题的动机感到困惑,因为他们认为机器人没有自己的需求或情感。P7也评价说,在社交对话中,由于机器人动作很少,“它直勾勾地盯着,有点吓人”。参与者还指出仅功能动作的不自然以及缺乏社交联系。在提醒人类喝水的场景中,P1评价说 “它(功能型机器人)似乎不在乎人类是否喝水”。P15提到,“机器人没有像人类彼此交流那样看着用户,感觉缺乏联系”。
5.2.2 对机器人状态的推断
参与者在问卷中感知并讨论了表情动作背后机器人的意图、注意力、态度和情感。例如,在社交对话场景中,P1将机器人向窗户移动的动作映射为 “查看外面的天气”(意图),四处移动表示兴奋,低头表示悲伤(情绪)。在投影任务中,P14将机器人向前倾斜和歪头的动作感知为显示出好奇,说 “机器人一开始似乎对人类的任务感兴趣(态度)。我喜欢这样。它似乎很乐意帮忙”。在摄影打光任务中,当人类做手势时,表情丰富的机器人会将头向后转向人类。几位参与者能够将其感知为机器人在关注人类的指令。P7说,“我喜欢它看向人寻求反馈,就好像在说‘这样可以吗?’”
即使对于仅具有功能动作的机器人,一些参与者仍然用心理理论来感知机器人的动作,比如推测机器人的注意力和意图。例如,在故障指示任务中,机器人在显示故障信息之前向纸条伸出手臂,参与者将这个伸展动作解释为 “机器人似乎在挣扎”(P6)。P7还指出,机器人的朝向清楚地表明了它的注意力:“机器人和人在看同一张纸条”。
5.2.3 受重视与不受重视的表情动作
虽然添加表情动作被证明有利于交互,但一些参与者认为它们不必要且效率低下。P15针对故障指示任务指出:“…… 通过动作带来的吸引力和完成给定任务的速度之间需要有一个平衡,否则人类可能会变得不耐烦。第一次因为新奇因素可能还好,但新鲜感很快就会消失。”
虽然一些参与者喜欢这些表情动作,但也有人指出有些表情行为可能过于夸张,从而分散注意力或造成干扰。一些参与者提到他们不喜欢机器人一直动,特别是没有明显原因的动作,这可能意味着 “机器人注意力不集中”(P5,对话场景)。大多数参与者欣赏 “快速且易于理解” 的信息,而对于微妙的动作,参与者有不同的偏好。
当机器人的动作与其感知到的能力不匹配时,参与者会产生负面认知。对于故障指示功能,P14指出:“我不喜欢它试图通过一种冲动来获得动力,因为这看起来很假。” P20认为机器人头上没有摄像头,所以 “看纸条” 的动作看起来很假。
添加表情动作的偏好因任务而异。对于功能动作较少的任务,以及面向社交且对效率不太敏感的任务,表情动作更受赞赏。例如,在播放音乐娱乐的场景中,P21指出:“我真的很喜欢这种让机器人具有吸引力的应用方式!不需要快速响应,所以有一个吸引人的舞蹈动作让机器人更具吸引力。” 另一方面,对于本身就有明确功能驱动动作且更面向功能的任务,添加表情动作可能会让一些人感到困惑,而且偏好各异。例如,在摄影打光场景中,参与者认为表情动作使机器人看起来不那么 “可预测”(P5),不那么 “稳定”(P14)。P18希望机器人 “只做与任务相关的动作,即角度和灯光调整”。即使没有表情动作,在这样面向功能的任务中,只要机器人能够根据情境和用户请求做出相应动作,参与者也会对机器人给予较高评价。
值得注意的是,与主动角色相比,许多参与者更能接受机器人扮演被动角色,比如提醒用户喝水。例如,P20指出:“…… 我不喜欢我的生活被机器人控制。如果我正在读一些精彩的内容,我不想被机器人的指令打断。” 添加诸如俏皮性格的表情动作可以增加对机器人行为的接受度,P8指出:“如果没有这种俏皮感,我可能会觉得与机器人的这种互动很烦人,而不是受欢迎和有吸引力。”
5.2.4 语音和灯光的影响
参与者多次提到动作与其他方式(如机器人的声音和灯光)之间的一致性。几位参与者感觉机器人的语音节奏与表情动作不匹配 —— 虽然表情动作 “很可爱,展现出一种个性”,但机器人发出的声音却非常 “自动化”、“生硬”,“破坏了互动的友好感”。P7和P15指出,语音的时机需要与动作的时机一致,这样才会感觉更自然。P12觉得电机发出的声音很烦人,并且可能只 “适合搭配较小、较慢的动作”。
动作和灯光之间的协调会影响互动的舒适度。一些参与者提到更喜欢机器人在保持灯光的同时保持稳定。在这种情况下,表情动作可能会干扰主要的照明功能,因为机器人的动作在显示注意力或好奇时可能会分散注意力。此外,P21指出,灯光的距离也会影响对干扰的感知。P7欣赏在辅助投影时 “机器人看向人时会熄灭灯光”。
6. 讨论
在本文中,我们进行了设计研究,以探索在纯粹功能性动作之上添加表情动作如何影响人机交互。定量和定性研究结果都表明,与严格的功能性动作相比,表情动作增强了整体交互体验,并提升了对机器人品质的感知。参与者更有可能在整个交互过程中识别机器人的心理状态,推测其意图、注意力、情感和态度。例如,参与者将机器人的 “注视” 视为共同关注的标志,这表明人与机器人之间的联系更强。此外,参与者更频繁地将表情丰富的机器人描述为有生命的存在 —— 例如,“宠物”、“孩子” 或 “朋友”。在某些任务中,添加表情动作使体验更具吸引力和趣味性。特别是当机器人发起互动或提醒参与者时,其表情动作使这些打断更容易被接受,例如在阅读过程中打断用户并提醒用户喝水的情况。这可能是因为参与者对具有表情动作的机器人更具同理心,因为它们让参与者想起有生命的生物,就像家里捣乱的宠物一样;因此,最初令人困扰的行为转变为一种有趣的社交互动。这突出了在机器人发起的任务场景中添加富有表现力和个性动作的好处。
定量结果揭示了不同任务中认知的差异。对于面向社交的任务 —— 如播放音乐、进行社交对话和提醒喝水 —— 添加表情动作明显更受青睐。定性推理进一步阐明了这一趋势:在这些任务中,用户优先考虑吸引力和娱乐性,而非任务效率。因此,添加表情动作增强了机器人的趣味性和个性。此外,本研究中的面向社交任务通常功能驱动动作较少。例如,在播放音乐或进行社交对话时,机器人主要以语言回应,功能输出不涉及任何身体动作。在这些情境中,结合与社交和任务场景相符的表情动作丰富了互动,增加了用户参与度,甚至可以传达额外的信息。另一方面,对于功能驱动的任务 —— 如调整灯光角度或在投影空间之间切换 —— 添加表情动作可能会干扰机器人的主要功能,并可能给用户造成困惑或烦恼。这意味着表情驱动的动作需要通过调整表情的程度和时机来补充功能驱动的动作,以丰富而非冲突于原始动作。未来的研究应该在人机交互中平衡任务效率和个性之间的权衡,同时通过个性化行为考虑个体偏好。例如,虽然一些用户喜欢更具活力的机器人,但另一些用户不喜欢持续的动作,特别是当动作没有明确或明显的原因时。
表情动作的设计和整合也需要与机器人的实体形态和能力相匹配。例如,注视行为应该与机器人 “眼睛”(摄像头)和 “头部” 的位置共同设计。虽然这对于类人机器人来说可能是直观的,但具有非拟人特征的机器人依赖外观设计和动作模式来暗示一种对人类甚至其他物种来说直观的栩栩如生的实体形态。同样重要的是,要使这些动作与机器人的其他方式相匹配 —— 在这种情况下,即它的语音和灯光或显示屏。正如许多参与者所指出的,动作序列中的语音内容、语调以及时机在塑造对机器人行为品质的感知方面都起着关键作用。未来的研究需要考虑这些不同方式之间更广泛的一致性,以进一步增强人机交互。
7. 结论
在本文中,我们提出了ELEGNT,这是一个为非拟人机器人在日常交互中设计表情和功能动作的框架。该框架整合了功能驱动和表情驱动的效用,前者专注于找到实现物理目标状态的最佳路径,而后者促使机器人在人机交互过程中采取能够传达其内部状态(如意图、注意力、态度和情感)的路径。我们使用一个灯形机器人来说明在各种交互场景中功能和表情动作的设计空间,这些场景涵盖从面向功能到面向社交的任务,以及涉及机器人被动与主动角色的情况。我们进行了一项用户研究,比较在六种不同任务场景中,机器人使用表情动作与仅使用功能动作时用户的认知差异。我们的结果表明,融入表情动作显著提高了用户对机器人的喜爱程度,并增强了交互参与度。这种认知因任务而异,对于功能驱动动作需求较少的面向社交的任务,尤其受益于表情驱动动作的添加。定性分析进一步阐述了用户对机器人特性的不同认知以及对机器人心理模型的感知。研究结果还强调了动作与机器人其他方式(如语音和灯光)保持一致的重要性。未来的工作将把这些设计见解整合到一个生成框架中,以创建能够在非拟人机器人中有效表达意图的情境感知机器人动作。