人机交互技术:通过计算机输入输出设备实现人与计算机对话-中文百科频道

基本内容

人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术。它包括机器通过输出或显示设备给人提供大量有关信息及提示请示等，人通过输入设备给机器输入有关信息及提示请示等，人通过输入设备给机器输入有关信息，回答问题等。人机交互技术是计算机用户界面设计中的重要内容之一。它与认知学、人机工程学、心理学等学科领域有密切的联系。

行业特征

市场需求是很大的，而供应方面却略显不足，尤其是拥有核心自主知识产权，技术过硬的企业并不多，行业整体缺乏品牌效应。傲唯刃道号召业内企业共同努力，尤其发挥吹毛求疵的研发精神，进一步提高研发能力，降低成本，真正解决客户的实际困难，严把质量关，提供最可靠的产品和技术。

发展历史

市场需求是很大的，而供应方面却略显不足，尤其是拥有核心知识产权，技术过硬的企业并不多，行业整体缺乏品牌效应。

⒈WIMP界面的形成

Xerox Palo研究中心于70年代中后期研制出原型机Star，形成了以窗口（Windows）、菜单（Menu）、图符（Icons）和指示装置（Pointing Devices）为基础的图形用户界面，也称WIMP界面。

Apple最先采用了这种图形界面，斯坦福研究所60年代的发展计划也对WIMP界面的发展产生了重要的影响。该计划强调增强人的智能，把人而不是技术放在了人机交互的中心位置。该计划的结果导致了许多硬件的发明，众所周知的鼠标就是其中之一。

⒉WIMP界面面临的问题和发展多媒体计算机和VR系统的出现，改变了人与计算机通信的方式和要求，使人机交互发生了很大的变化。在多媒体系统中继续采用WIMP界面有其内在的缺陷：随着多媒体软硬件技术的发展，在人机交互界面中计算机可以使用多种媒体，而用户只能同时用一个交互通道进行交互因而从计算机到用户的通信带宽要比从用户到计算机的大得多，这是一种不平衡的人-计算机交互。

虚拟现实技术除了要求有高度自然的三维人机交互技术外，由于受交互装置和交互环境的影响，不可能也不必要对用户的输入做精确的测量，而是一种非精确的人机交互。三维人机交互技术在科学计算可视化和三维CAD系统中占有重要的地位。基于WIMP技术的图形用户界面，从本质上讲，是一种二维交互技术，不具有三维直接操作的能力。要从根本上改变这种不平衡的通信，人机交互技术的发展必须适应从精确交互向非精确交互、从单通道交互向多通道交互以及从二维交互向三维交互的转变，发展用户与计算机之间快速、低耗的多通道界面。从右上表可以看出在计算机系统不同的发展阶段中，人机交互模型的发展过程。在传统的人机系统中，人被认为是操作员，只是对机器进行操作，而无真正的交互活动。在计算机系统中人还是被称为用户。只有在VR系统中的人才，是主动的参与者。

人类生活中的事件都是多通道的，人-计算机多通道交互技术的发展虽然受到软件和硬件的限制，但至少要满足两个条件：其一，多通道整合，不同通道的结合对用户的体验是十分重要的；其二，在交互中容许用户产生含糊和不精确的输入。

⒈非精确的交互

语音（Voice)主要以语音识别为基础，但不强调很高的识别率，而是借助其它通道的约束进行交互。

姿势（Gesture)主要利用数据手套、数据服装等装置，对手和身体的运动进行跟踪，完成自然的人机交互。

头部跟踪（HeadTracking）主要利用电磁、超声波等方法，通过对头部的运动进行定位交互。

视觉跟踪（Eye-Tracking）对眼睛运动过程进行定位的交互方式。

⒉多通道交互的体系结构

多通道交互的体系结构首先要能保证对多种非精确的交互通道进行综合，使多通道交互存在于一个统一的用户界面之中，同时，还要保证这种通道的综合在交互过程中的任何时候都能进行。图1和图2表示了这两种不同的体系结构。良好的体系结构应能保证多个通道的综合不只是发生在应用程序这一级。

人机交互技术是目前用户界面研究中发展得最快的领域之一，对此，各国都十分重视。美国在国家关键技术中，将人机界面列为信息技术中与软件和计算机并列的六项关键技术之一，并称其为"对计算机工业有着突出的重要性，对其它工业也是很重要的"。在美国国防关键技术中,人机界面不仅是软件技术中的重要内容之一，而且是与计算机和软件技术并列的11项关键技术之一。欧共体的欧洲信息技术研究与发展战略计划（ESPRIT）还专门设立了用户界面技术项目，其中包括多通道人机交互界面（MultiModal Interface for Man-MachineInterfa

ce）。保持在这一领域中的领先，对整个智能计算机系统是至关重要的。我们可以以发展新的人机界面交互技术为基础，带动和引导相关的软硬件技术的发展，使更有效地使用计算机的计算处理能力成为可能。

研究现状

目前，人机交互技术正处于多通道、多媒体的智能人机交互阶段，已经取得了不少研究成果，不少产品已经问世。侧重多媒体技术的有：触摸式显示屏实现的“桌面”计算机，能够随意折叠的柔性显示屏制造的电子书，从电影院搬进客厅指日可待的3D显示器，使用红绿蓝光激光二极管的视网膜成像显示器；侧重多通道技术的有：“汉王笔”手写汉字识别系统，结合在微软的Tablet PC操作系统中数字墨水技术，广泛应用于Office/XP的中文版等办公、应用软件中的IBM/Via Voice连续中文语音识别系统，输入设备为摄像机、图像采集卡的手势识别技术，以IPHONE手机为代表的可支持更复杂的姿势识别的多触点式触摸屏技术，以及IPHONE中基于传感器的捕捉用户意图的隐式输入技术。

人机交互技术领域热点技术的应用潜力已经开始展现，比如智能手机配备的地理空间跟踪技术，应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术，应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术，应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术，对于有语言障碍的人士的无声语音识别，应用于广告、网站、产品目录、杂志效用测试的眼动跟踪技术，针对有语言和行动障碍人开发的“意念轮椅”采用的基于脑电波的人机界面技术等。热点技术的应用开发是机遇也是挑战，基于视觉的手势识别率低，实时性差，需要研究各种算法来改善识别的精度和速度，眼睛虹膜、掌纹、笔迹、步态、语音、唇读、人脸、DNA等人类特征的研发应用也正受到关注，自然语言理解虽然目前在语言模型、语料库等方面有进展外，仍将是人机交互的重要目标，多通道的整合也是人机交互的热点，另外，与“无所不在的计算”、“云计算”等相关技术的融合与促进也需要继续探索。

主要特点

多媒体系统的交互特点

与传统用户界面相比，引入了视频和音频之后的多媒体用户界面，最重要的变化就是界面不再是一个静态界面，而是一个与时间有关的时变媒体界面。

人类使用语言和其它时变媒体（如姿势）的方式完全不同于其它媒体。从向用户呈现的信息来讲，时变媒体主要是顺序呈现的，而我们通常熟悉的视觉媒体（文本和图形）通常是同时呈现的。在传统的静止界面中，用户或是从一系列选项中进行选择（明确的界面通信成分），或是用可再认的方式进行交互（隐含的界面通信成分）。在时变媒体的用户界面中，所有选项和文件必须顺序呈现。由于媒体带宽和人的注意力的限制,在时变媒体中，用户不仅要控制呈现信息的内容，也必须控制何时呈现和如何呈现。

VR系统中人机交互的特点

人机交互可以说是VR系统的核心，因而，VR系统中人机交互的特点是所有软硬件设计的基础。其特点如下：

观察点（Viewpoint)是用户做观察的起点。

导航（Navigation)是指用户改变观察点的能力。

操作（Manipulation）是指用户对其周围对象起作用的能力。

临境（Immersion)是指用户身临其境的感觉，这在VR系统中越来越重要。

VR系统中人机交互若要具备这些特点，就需要发展新的交互装置，其中包括三维空间定位装置、语言理解、视觉跟踪、头部跟踪和姿势识别等。

多媒体与VR系统的人机交互有着某些共同特点。首先，它们都是使用多个感觉通道，如视觉和听觉；其次，它们都是时变媒体。

人机交互界面作为一个独立的、重要的研究领域受到了世界各计算机厂家的关注。并成为90年代计算机行业的又一竞争领域。从计算机技术的发展过程来看，人机交互界面技术还引导了相关软硬件技术的发展，是新一代计算机系统取得成功的保证。80年代已来，计算机的软件和硬件技术取得了较大的发展，同时，计算机的使用者也从计算机专家迅速扩大到了广大未受过专门训练的普通用户，由此极大地提高了用户界面在系统设计和软件开发中的重要性，强烈地刺激了人机交互界面的进步。人－计算机的交互作用是通过用户界面来实现的。

图形用户界面

介于人与计算机之间,人与机器的通信，人机界面(HCI):软件+硬件

发展:

由指示灯和机械开关组成的操纵界面->由终端和键盘组成的字符界面(80年代)->由多种输入设备和光栅图形显示设备构成的图形用户界面(GUI)，(90年代)PC，工作站，WIMP(W-windows、I-icons、M-menu、P-pointing devices)界面，所见即所得->VR技术(发展方向)

由计算机发展决定:

科学计算机型->无处不在的计算机，人机溶合，提高交互效率。

什么是HCI

HCI是设计、评估和执行交互计算机系统以及研究由此而发生的相关现象的。

HCI是未来的计算机科学。我们已经花费了至少50年的时间来学习如何制造计算机以及如何编写计算机程序。下一个新领域自然是让计算机服务并适应于人类的需要，而不是强近人类去适应计算机。

多媒体人机交互技术

人机交互:

Human Computer Interaction,是研究人与计算机之间交互的技术。

多媒体人机交互技术概述:

多媒体人机交互技术是多媒体技术和人机交互技术的结合。

信息表示的多样化和如何通过多种输入输出设备与计算机进行交互是多媒体人机交互技术的重要内容。

多媒体人机交互是基于视线跟踪、语音识别、手势输入、感觉反馈等新的交互技术。

人机界面:

User Interface，又称用户界面，是计算机与人之间交流的接口。

人机界面的发展

手工操作:最早的计算机采用

命令通行无阻:DOS等操作系统采用

图形用户界面:Windows系列采用

人机界面的设计和开发在整个系统的研制中占40%~60%的比重。

多媒体人机交互方式:

输入

键盘输入:传统方式

鼠标输入:图形用户界面的重要输入方式

手写输入:手写汉字识别,平板电脑

语音输入

触摸屏输入

数字化仪输入:适用于CAD/CAM系统

扫描输入:条形码、扫描仪、光电阅读器

三维输入：数据手套、三维鼠标、力矩球等

视觉输入：摄像设备。机器人的视觉

输出

显示终端输出：重要工具。

声响输出：声波

打印输出：标准输出设备之一

三维输出：产生三维输出的设备有投影显示器、头盔显示器、电视眼境等

多媒体人机交互技术应用领域

软件界面设计：多媒体化

自然语言人机交互

输入输出装置的设计

计算机辅助设计和制造(Computer Aided design CAD/Computer aided manufacturing CAM)

什么是理想人机交互技术

人机交互技术几十年来经历了几个不同的主要发展阶段和典型风格。当前，占统治地位的图形用户界面(WIMP/GUI)正遭受不断的批评，而新的交互技术尚不成熟和普及，于是人们更为热衷于争论未来的人机界面“可能是什么样子”而且莫衷一是。在此，我们也想加入这种讨论的行列，根据几年来研究工作的心得发表一些看法，谈谈什么是理想人机交互风格。我们的出发点处于人机工程学这个大背景，遵循人机工程学的基本观点，在“以人为中心”前提下强调人机配合

让我们先考察在人机工程学出现之前人类如何对待工具。不管某个具体工具的设计者在某个具体时期如何理解人与工具的关系，就人类劳动(尤其是制造和使用工具)的历史长河而言，人类是在努力不懈地改造和驯服自然，而工具的制造和完善都是在服从这种目的的前提下进行的。就使用特定工具是否需要经过训练以及所需训练的程度如何，也是不一而论的。人的技能有简单与复杂之分，也许人人都能学会打字，但未必人人都能学会驾驶航天飞机。

较为合理的看法是“自然人机交互是利用人的日常技能进行的”，强调无需特别训练或不需要训练。但究竟什么是“日常技能”以及日常技能是否都是不经训练或稍作训练即可获得呢?语言(特别是书面语言)是必须经过训练的，音乐、绘画、生产工艺等莫不如此。我们认为，人从日常环境走向计算环境时原本具有的技能便是所谓的“日常技能”。可见这是一个相对的概念，其中并不细究是否需训练的问题。

所以我们不能以是否需要训练来衡量人机交互技术的好坏。人机工程学并不否定训练，避免训练或减少训练是人们的愿望，但能否做到并不完全由人的主观意志决定，应根据人机交互任务的目的、特点、场合以及实现成本等因素来决定人机交流应达到的自然性程序。

也许对于早期的“纯粹”的计算机问题和为数极少的计算机专家而言，命令语言及程序语言界面是足够的。但是当计算机大量应用于CAD/CAM、字处理、MIS等非数值计算领域之后，需要进行大量几何的、空间的、非数值的、非符号的信息处理手段，此时形式语言界面的复杂性、抽象性，对记忆负荷要求等限制了计算机应用的深入和普及，随之直接操纵给用户界面技术应运而生并广受欢迎。我们相信，形式语言不会消失，当然也不能强迫所有用户都接受它。

这正如数学语言并不会被其它形式的语言(如图形的、手势的)所取代，虽然心理学家尝试在数学教育中大量利用非数学手段；又如流行音乐与高雅音乐各分秋色，听众各有所好。目前，直接操纵界面不但没有彻底取代形式语言界面，而且其自身也表现出许多局限性。

而基于语言的对话式交互方式又重新开始受到重视，只是对话语言不再限于单纯的形式语言，而是引入了自然语言或类自然语言对话，如所谓的第四代语言，甚至引入基于语音的人机对话。基于形式语言、自然语言或类自然语言的用户界面本质上都是命令驱动的，其基本模式与直接操作用户界面相反。

这两种本质不同的人机交互模式在人类的日常活动中都存在其对应的形式，分别对应于语言的和非语言的交际活动，后者泛指形体语言，包括姿势，情态、触摸、近体、标志等。语言具有后天习得性，有口头语言和书面语言两种，书面语言需要正规和专门的教育和训练才能掌握。

我们认为，自然人机交互模式是以直接操纵为主的、与命令语言特别是自然语言共存的人机交互形式。理想的人机交互模式就是“用户自由”。