Kismet
Kismet是一款模仿人头部的机器人,由麻省理工学院的Cynthia Breazeal博士在二十世纪九十年代制作,是研究机器能否辨认和模仿人的情感的一项实验。 Kismet 一词来自一个土耳其语单词,意为“命运”或“好运”。[1]
硬件设计和架构
为了能使Kismet与人类正常地交流互动,它具有听觉,视觉和本体感受的能力输入设备。 Kismet通过各种面部的表情,会发声和移动来模拟人类的情绪。面部表情则是通过耳朵、眉毛、眼皮、嘴唇、下巴和头部的运动产生的。这些物质材料的成本估计为25,000美元。[1] 此外,还有四个摩托罗拉68332处理器,九个400兆赫的计算机和一个500兆赫的计算机。 [1]
软件系统
Kismet的社交智能软件系统(SNS)是按人类智能行为的模型为基础而设计的。它包含如下六个子系统。[2]
基本特征提取系统
该系统被用来处理来自相机和麦克风的原始视觉和听觉信息。 Kismet的视觉系统可以执行眼睛检测,运动检测,以及肤色检测(尽管有争议)。当Kismet移动头时,它会暂时禁用其运动检测系统,以避免检测自身的运动。它还使用立体相机来估计物体在其视野中的距离,例如检测威胁 - 迅速移动的大而近的物体。[3]
Kismet的听觉系统主要是为了识别婴幼儿讲话中的情感。特别的,它可以检测五种不同类型的情感意图:批准,禁止,注意,安慰和中立。情感意图分类器处理步骤如下:从记录的语音样本中提取音调平均值和能量(音量)方差等低级特征。然后将情感意图的类别建模为高斯混合模型,并使用期望最大化算法将这些样本进行分类。分类是通过多个阶段完成的,首先将一个话语分为两个一般组(例如安慰/中立与禁止/关注/批准)之一,然后进行更详细的分类。这种系统架构显著提高了情感分类的性能,如“批准”(“你是一个聪明的机器人”)与“注意”(“嘿,Kismet,我在这里”)。
动机系统
Breazeal博士把自己与机器人的关系形容为“像幼儿与看守人的互动,我本人就是看守者,而机器人就像一个婴儿”。这概述了在一个学习框架内设置的人机关系,Breazeal博士为Kismet的发展提供了支撑。它提供了Kismet能力的展示机会,描述了情绪与表情,表达了机器人的“动机状态”,Brazeal博士说:“这是一种愤怒(笑)极度的愤怒,厌恶,兴奋,恐惧,这是幸福,这是一个兴趣,这个是悲伤,惊喜,这个是疲倦,这个在酣睡。[4]
在任何时候,Kismet一次只能处于一种情绪状态。然而,Breazeal指出Kismet没有意识,所以没有触觉。
语言系统
Kismet用各种各样的音素说出初始语言,类似于婴儿的咿呀声。它使用DECtalk语音合成器,改变音高,时间,发音等来表达各种情绪。语调用于在问题和陈述式的话语之间变化。嘴形同步对现实化很重要,因此开发者使用动画策略:[6]“简单是成功的嘴唇动画的秘诀”。因此,他们并不是完全模仿嘴唇的动作,而是“创造一个不受观众挑战的视觉short hand”。
参见
- Peter Menzel and Faith D'Aluisio. Robosapiens. Cambridge: The MIT Press, 2000. Pg. 66
- Breazeal, Cynthia. Designing Sociable Robots. The MIT Press, 2002
- . [2018-02-08]. (原始内容存档于2020-10-01).
- Suchman, Lucy. "Subject Objects." Feminist Theory. 2011, pg. 127
- Breazeal, Cynthia. Designing Sociable Robots. The MIT Press, 2002, pg. 112
- Madsen, R. Animated Film: Concepts, Methods, Uses. Interland, New York, 1969