将计算融入环境——认识无所不在的计算与智能环境

徐光 史元春 谢伟凯 蒋长浩

----网络及多媒体技术的出现使计算机从实验室、办公室进入了人们的教育、娱乐和生活,但到目前为止,人机交互的方式仍未摆脱以计算机为中心的桌面计算的模式,计算机并没有充分地与人的生活环境融合在一起。无所不在计算技术的研究和探索将致力于突破这一瓶颈,使计算机更贴近我们的生活。

----清华大学计算机系人机交互与媒体集成研究所徐光教授将阐述无所不在的计算时代的一个全新研究方向——智能环境。智能环境是一种嵌入了多种感知、计算设备的物理空间,能够根据上下文识别人的身体姿态、手势、语音等,进而判断出人的意图,以有效提高人们的工作和生活质量。本文提出的分布侍候式计算正是实现这种环境的一种途径。

特邀报告人 徐光

----清华大学计算机科学与技术系教授、博士生导师、IEEE高级会员、图形图像学会多媒体技术委员会主席、国际测量学会IMEKO TC-10中国代表。研究方向为计算机视觉和多媒体技术。

想象一下: 当您进入房间时,您可用语音命令房间的墙显示世界上某个地区(例如欧洲)的地图;当地图显示在墙上时,您可以用手指向图上某个国家(例如法国)的位置,用语音要求查询各种信息(例如国民经济生产总值等)( 如图1所示)。

图1 美国麻省理工学院人工智能实验室的智能房间(Intelligent Room)

----这个例子就是美国麻省理工学院人工智能实验室的智能环境的研究项目——智能房间(Intelligent Room)。那么,什么是智能环境?它要实现的是一种什么样的目标?是如何实现的?它与我们所谈的新一代人机交互技术有什么关系呢?要理解这些,还要从理解无所不在计算环境入手。

什么是无所不在的计算

----我们可以看到,目前计算机技术的特点是:(1) 以计算机为中心的计算。计算机的使用方法是按计算机本身的方便设计的,主要依靠键盘和鼠标完成信息的输入,这不符合人们主要依靠语音和视觉交互的习惯。也就是说用户不是按自己的习惯使用计算机,而是要适应计算机的习惯。(2) 桌面计算(desk-top)的方式。现在我们要使用计算机,需要坐到计算机面前才行,这也就是说计算机并没有与人们的生活环境融合在一起。

----因此,目前的计算机使用方法阻碍了计算机的进一步普及。为此,人们不断思考21世纪的计算模式是什么样的?1991年,已故的前Xerox PARC首席科学家Mark Weiser在《Scientific American》上发表的一篇《The Computer for the 21st Century》和后续的几篇文章,可以说是这种思考的一个集中体现。他认为我们熟悉的计算机的使用方式的最大弊端就是计算机本身吸引了太多注意力,而好的工具应该是不会吸引我们的注意力的,比如几千年来我们习惯于用笔和纸作为帮助我们思考问题的工具,但我们在用它的时候却从来都不会去注意笔和纸本身。因此他提出了“无所不在的计算(Ubiquitous Computing)”的思想,强调把计算机嵌入到环境或日常工具中去,让计算机本身从人们的视线中消失,让人们注意力的中心回归到要完成的任务本身。MIT的人工智能实验室有一个被命名为OXYGEN (氧) 的“无所不在计算”的研究项目,因为氧气是无所不在,它对人类是不可或缺的,但又是不可见的。这正是“无所不在计算”所希望具有的特征。

----人类正在向“无所不在计算”的时代(Ubiquitous computing age)发展,它的目标是使数百万计的企业、数以亿计的用户、以及数量更为庞大的各种设备通过计算机网络连接在一起,并且在任何时间、任何地点、任何设备可以访问每个人和每件事。这将使生产率极大提高,同时也给人们的生活带来极大的方便。这是计算机技术和其使用方式根本性的变革。

----归纳起来,无所不在的计算的基本特征是:

----(1) 以“人为中心的计算”,使计算机的使用符合人的习惯;

----(2) 计算机将“嵌入”到人们的日常环境(如办公室、住家)中,并使用户能与这样的环境进行就像与人类一样的交互;

----(3) 无所不在的计算与网络的结合使得计算是移动和分布的。

----无所不在的计算代表了技术发展的方向,是对现有的以计算机为中心的桌面(desk-top)计算方式的革新,对它的研究具有战略上的重要性。

实现途径

----目前来看,实现“无所不在计算”的途径可分为:可穿戴计算机(Wearable Computer)、信息设备(Information Appliance)和智能环境3种方式。这3种方式是可以相互补充和合作的,尤其是其中智能环境又可用做实现“无所不在计算”的集成环境,也是我们这篇文章介绍的重点。

----1.可穿戴计算机(Wearable Computer)

----计算机和各种输入输出设备被佩戴在人身上,包括小型的计算机、头戴显示器、耳机、MIC和摄像头。这种随身携带的系统可以用来帮助人们做很多事情,比如当您注视一个物体时,计算机可以把与这个物体相关的信息显示在头戴显示器上; 当您与别人对话时,计算机可以自动为您做记录等。

----可穿戴计算机的特点是:
----▲随时随地的帮助
----▲支持部分的人与人交互的方式
----▲提供的服务基于场景和上下文

----2.信息设备(Information Appliance)

----这个领域的研究认为我们应该为特定的任务设计专门的内嵌计算能力的信息设备(Information Appliance),这个设备的界面应该是与它面向的应用场合直接相关的,这样可以让我们更加方便和乐意使用这种设备。比如IBM的Digital Clipboard,它外观上看起来就像一个普通的记事板,您可以在上面夹纸,然后在纸上写字。但是这个板子嵌入了传感器阵列,您在纸上写的东西会被底板感知并记录在板内的存储器中。板子内的记录内容也可以上传到计算机上,而且因为每一笔划存储时都是带了时间记录的,所以您在板上书写的过程完全可以一丝不差地重现。

----信息设备的特点是:
----▲随时随地获取计算设备的帮助
----▲交互方式是自然的、与应用领域相关的

----3.智能环境

----智能环境是指通过在一个物理空间中嵌入计算机视觉、语音识别、墙面投影等多种模态的交互能力,使隐藏在视线之外的计算机可以识别在这个物理空间中的人的身体姿态、手势、语音及上下文等信息,进而判断出人的意图并做出合适的反馈或动作,以帮助人们更加有效地进行工作或提高人们的生活质量的系统。

----智能环境同时又是一个集成的环境,它可以把信息设备和可穿戴计算机等技术集成其中。例如,前面曾经提到的MIT的一个“无所不在计算”研究计划——OXYGEN (氧),氧计划的目标是通过由语音和视觉构成的自然的感知接口把丰富的计算和通信能力带到人类触手可及的地方,使人们可方便地进行协同工作、获取知识、实现日常工作和环境的自动化等。在氧研究计划中包括3种设备:E21、H21和N21。其中E21是嵌入在办公室、建筑物、家和汽车中的固定设备(Stationary Devices); H21是手持设备(Hand-held Devices),用于接收语音和视觉输入,它可重新配置以完成各种不同的功能;N21是网络设备。

----正如文章前面曾经提到的美国麻省理工学院人工智能实验室的智能房间项目的研究,目前国际上(从大学到公司)有关智能房间类型的研究计划不下几十个。它们的用途、功能和实现的技术各不相同。那么,这些智能房间研究项目的共有的本质是什么?我们认为是“分布侍候式计算”。

智能教室

----智能教室计划就是清华大学计算机系人机交互与媒体集成研究所在“建设一流大学学科建设” 重点项目支持下正在研究实现的一个智能环境实验系统。智能教室引入交互空间的概念,把一个普通的教室空间增强为教师和远程教育系统的交互界面,在这个空间中教师可以摆脱键盘、鼠标、显示器的束缚,而用语音、手势、甚至身体语言等传统的授课经验来与远程的学生交互。在这里,现场的课堂教育和远程教育的界限被取消了,教师可以同时给现场的学生和远程的学生进行授课。

----在一个“智能教室”中,一块称为“媒体板”的投影屏幕上显示着教师的多媒体讲义,教师可以像在教室黑板上写字一样直接用手在媒体板进行板书,还可用手势或语音控制讲义,媒体板上的内容会同时出现在远程学生的屏幕上;智能教室中还有一块称为“学生板”的投影屏幕,在远程上课的学生会在这里有相应的图片显示,教师可以用手势或声音点名某个学生发言,之后这位学生的发言视频就可以传送到在这里并播放出来。

----智能教室实现的实时远程教学,由于有全局有序的可靠多播协议和自适应传输的机制的支持,可以在广域网上开展大规模、交互式的远程教育。同时,这个空间可以自动录下课堂进行过程中发生的事件,并产生一个可以检索的复合文档,可以作为一种有现场感的多媒体课件来使用,解决了课件制作的障碍。

----从图3所示的智能教室的模拟过程中我们可以看出,这个智能教室系统将交互空间技术与远程交互技术相结合,其所涉及的技术特点可以总结为:

----自然的人机界面(Natural User Interface)

----我们研究智能教室的“目标”就是使教师上课时可以既充分使用计算机又摆脱对计算机本身的关注,即能够以与其他人交互的方式与计算机系统交互。这种自然的人机界面由投影显示、语音命令、话音合成、姿态识别、人物跟踪与识别等组成,主要通过多模态的人机接口技术实现。

----智能摄像(Smart Camera)

----教师讲课过程的视、音频可以实时地传送到远程学生的终端上,并且,智能教室的视频跟踪识别技术可以自动判别讲课过程的焦点,将与当时讲课内容一致的视频镜头捕捉传送出去。

----上下文有关的主动服务(Context-awareness and Attentive Service)

----智能教室可通过信息融合和语法分析来支持现实环境的人机交互,其研究方法强调面向应用、面向场景,在计算机对人类智能的模仿没有本质性突破的当前,将比传统研究AI和HCI时采用的脱离实际场景的、孤立的、单模态、没有上下文的方法更有希望成功。环境能在上下文分析的基础上理解和预测人的行为并主动服务。

----自动记录讲课过程(Automatic Capture of Class Events and Experience)

----课堂事件的自动记录是一种增强的教育技术,其先进性在于记录文档是有结构和可索引的,能够再现课堂过程,特点是快捷、有现场感和个性化。其关键问题是设计一种数据格式满足多媒体同步、流传输、以及自适应变换的要求。

----协作支持(Collaborative Work Support)

----这个教室是支持大量学生通过网络远程加入的,需要多通道的协作感知和信息传递的支持。我们提出以多媒体板(MediaBoard)和现场视频/音频为应用界面、可靠多播协议为传输支持的实现方案。

----自适应多媒体变换(Adaptive Multimedia Transforming)

----对课堂同步传输或记录后点播的复合多媒体文档进行自适应的传输,以期在保持文档语义可靠的前提下,对复合文档中包含的多媒体数据进行动态的变换处理,使文档能适应网络、终端和用户的差异,同时又不造成数据冗余。

----“无所不在计算”是对计算机技术的重大革新,代表了计算机技术的发展方向。它不但具有战略的重要性,而且也为当前许多应用中的关键技术提供了新的思路和解决方法。例如,远程教育的普及迫切地需要利用新的远程交互技术来提高教学的质量,利用先进的信息技术提供高效、方便的课件制作技术。在远程教育中引入“无所不在计算”的概念和技术将会极大地推动它的发展。 (作者地址:清华大学计算机系人机交互与媒体集成研究所,100084; E-mail: xgy-dcs@mail.tsinghua.edu.cn

什么是分布侍候式计算?

----从以上分析可以看出,智能环境是最集中地体现了“无所不在计算”技术的一种方式。我们认为,智能环境中的本质是分布侍候式计算(Distributed Attentive Computing, DAC)。如何理解分布式与侍候式呢?

----“分布式”包含了2个方面的含义:1)环境分布。在此环境中,计算机将嵌入到环境的各种设备中,以至可穿戴在人身上。这时无需和无法区分所使用的是哪一台计算机,而是由整个分布式环境主动地为用户提供计算机服务,也就是用户是在一个“交互空间”中使用计算机和得到计算服务。2)服务分布。在信息时代中,计算机的根本作用是人与人之间的信息交流的媒介。计算机、网络、和多媒体技术相结合使得在地理上分布、在时间上不同步的多个用户能方便地进行信息交流和合作,这时用户使用计算机的目的是为了与其他用户的信息交流和合作,也就是以人-计算机-人的方式进行人机交互。

----“侍候式”(attentive or self-aware)则是指在这样的环境中使用计算机时,计算机不是被动地等待用户的命令,而是能觉察交互的上下文(context awareness),主动地适应用户的特殊需求和提供个性化的服务。这些服务包括:

----1)基于上下文的服务 在交互空间中上下文具有重要意义。 首先,在同样的输入的条件下,上下文(例如用户的位置)不同可能具有不同的语义。 其次,在人与人的交谈中可利用上、下文中蕴含的信息极大地提高交互的效率。在交互空间中,利用上、下文也可使用户更方便地使用计算机; 从本质上讲,上、下文是任何可用于表征实体状态的信息,这里的实体可以是个人、位置、物理的或计算的对象。利用上下文信息向用户提供与任务有关的信息和/或服务。系统根据人体生物特征进行用户身份的识别和验证,从而可提供个性化的服务。

----2) 基于生物特征的用户身份鉴别 用户身份是重要的上下文,系统能通过用户的人脸图像、人眼的虹膜、视网膜、声音、指纹等人的天然特征识别判断交互空间中的人员的身份: 是合法的用户、还是临时的访问者或非授权的用户等,从而提供不同的服务。

----3) 识别用户的动作、意图甚至情绪并主动地做出响应 通过检测用户的动作或由动作序列构成的事件,来理解用户的意图,交互空间将主动做出相应的响应和提供合适的服务。例如,交互空间可通过检测用户的注视方向,发现用户当前的注视对象,进而推测用户的意图。如果注视的对象是电话机时,那么用户很可能是要打电话,这时交互空间就会对此做出响应。进一步的发展是检测和理解用户的情绪,并做出相应的响应,这就是进行情感的计算和交流。

----4) 记忆用户的工作日程和作息时间表,并通过对数据的学习了解用户的习惯和爱好,以便为用户提供个性化和自适应的服务。

图2 美国马省理工学院研制的智能衣服(smart clothe)

图3 智能教室演示

返回