实时交互

2024-07-19

实时交互（精选七篇）

实时交互篇1

远程教育实时授课指的是授课时教师与学生处于同一时间不同地点, 即“异地同时”授课, 它克服了时间上的差异。在远程教育实践中先后出现了两种相对成熟的远程实时教育解决方案:基于流媒体技术的视频实时授课系统和基于虚拟现实技术的网络虚拟教室。

1.1 视频实时授课系统的不足及原因分析

简单的视频实时授课主要利用QQ视频或其他能够实时交流的工具完成, 教师利用这些交流工具的多人视频功能将授课画面传送给学生, 只要网络提供保证, 教师端发送的视频流、音频流、数据流与学生接收的信息流相一致就可以达到实时授课的效果。这种实时授课一般会根据实际需要分成两个不同的构成方式。第一种形式是一个教师同时教授不同地方的学生, 即一个教师端面对多个学生端, 各个学生同时不同地。第二种形式是一个教师端面对一个学生端, 但是学生端是所有学生, 即师生异地, 但所有学生同时同地。而不管哪一种都存在一个缺点就是交互困难, 教师的主导作用不能体现, 学生的主体性得不到满足。造成这个问题的主要原因有: (1) 教师方面。由于窗口数量和学生端数量的限制, 教师无暇顾及所有同学的反应, 无法看清学生的上课表情, 就不能判断学生的听课效果, 从而忽略了学生反应, 严重缺乏课堂上师生互动的环节。 (2) 学生方面。一种情况, 学生面对的是计算机里没有丰富肢体行为表现的“半身”教师形象, 教师动作表情的单一性容易引起学生的视觉疲劳, 实时课堂因此变得枯燥和乏味, 不利于师生之间的交流。另一种情况, 虽然学生面对的教师不再是半身形象教师有课堂风格表现但是学生与学生之间主要通过话语来完成信息传递, 不能让自己的动作和行为得到体现, 交互方法因此显得单调。

1.2 现有网络虚拟教室的不足及原因分析

为实现良好的交互, 人们开始致力于对网络虚拟教室系统的开发。网络虚拟教室就是在网络空间中建立一个虚拟的可交互的教学系统, 通过模拟传统的课堂教学功能, 为分处各地的师生提供一个可共享的虚拟学习环境。目前有较强影响力的就是基于计算机支持的协同工作理论 (ComputerSupported Cooperative Work.CSCW) 所创建的虚拟教室.它是以BBS、聊天室和电子白板之类的交流工具为教学的主要形式.教学内容可以多种媒体形式呈现。这种类型的虚拟教室是以二维界面作为交互接口, 交互单调。随即, 三维虚拟分布式虚拟学习环境、分布式智能教学系统、智能虚拟环境也产生了, 但是它们存在另一个不足:教师和学生在网络虚拟教室中需要通过控制鼠标和键盘等外界设备来实现自身的运动, 其运动状态不是由人物自身表现的, 运动缺乏真实性和自由性, 让人觉得很机械。因此笔者探究了新的解决方案以实现一个具有一定真实感的、能够进行高效交互的实时授课系统。

2 远程实时课堂交互功能优化模型

笔者所提供的新型的解决方案, 是利用远程捕捉技术和虚拟现实技术相结合实现的。

2.1 运动捕捉技术基本概念

笔者所介绍的运动捕捉技术指的是实时运动捕捉。实时运动捕捉技术是指在确定运动体位置后, 利用视频捕捉设备将运动体的运动轨迹以图像的形式记录下来, 然后利用计算机将其转化为抽象的运动数据, 并根据这些运动数据驱动虚拟模型运动最后实时反馈给现实和控制系统的一门新型运动控制技术。

到目前为止, 常用的运动捕捉技术从原理上说可分为机械式、声学式、电磁式和光学式, 不同原理的设备各有其优缺点。同时随着技术的不断发展, 不依赖于专用传感器而直接识别人体特征的运动捕捉技术也走向应用, 如多视点非接触式运动捕捉技术。微软公司所开发的“Project Natal”项目采用的就是这种非接触式的运动捕捉, “Project Natal”是微软Xbox 360动作感应控制器的名称, 它是一个让游戏玩家无需任何游戏控制器的游戏控制方式, 它可以检测到玩家的行动。它的运动捕捉设备有RGB摄像机, 深度传感器和多向麦克风, 并有专门的软件支持, 这些设备和软件提供了全身体立体动作抓取, 面部识别和语音识别。

2.2 模型要素分析

为优化远程实时授课系统的交互功能, 笔者提出了以下构想:借助运动捕捉技术, 3D技术以及其他技术的支持, 构建一个虚拟的教学场景, 为每一位课堂成员提供一个“3D替身”。将成员在现实中的运动和表情通过“3D替身”以某种相对明显的方式实时地呈现在虚拟教学场景中, 让教师通过观察“3D替身”的运动变化从而了解到学生的现实中的表情和动作, 促进教师对课堂的把握与调控。让学生能够在远距离的教学环境下, 通过丰富的课堂行为与教师进行非语言交互, 达到多维度、全方位的信息传输和交互影响。

该技术方案模型如图1所示, 模型主要分为5个部分:教师、运动数据、3D替身、虚拟教学平台以及学生。下面对模型的结构以及原理进行分析。

2.2.1 教师端和学生端

同以往的远程教育实时授课系统一样, 这里的教师端和学生端的终端是面对计算机的实体人。所不同的是, 他们的动作和表情可以被实时捕捉, 克服了以往的各种实时授课环境的交互单一以及交互灵活度不够的障碍。因为该模型所体现的教师和学生的“替身”运动, 不是通过鼠标和键盘控制, 而是利用运动捕捉设备实时捕捉教师和学生的运动变化并通过抽象处理以控制“替身”运动。这不仅保证了教师和学生能够将自己的动作通过“替身”真实的反映在电脑屏幕上, 同时也克服了视频会议中多窗口视频所造成的网络不畅以及障碍, 保证教师和学生之间、学生和学生之间交流的易见性和方便性。

2.2.2 运动数据的获取及处理

运动捕捉技术的实质就是要测量、跟踪、记录物体在三维空间中的运动轨迹。因此它可以对人的运动轨迹进行捕获, 并处理记录的运动数据。典型的运动捕捉设备是由传感器、信号捕捉设备、数据传输设备和数据处理设备等部分组成。运动捕捉过程主要包括以下几个步骤:首先, 通过固定在运动物体上的传感器, 跟踪物体从而向系统提供运动物体的位置信息;接着由信号捕捉设备如摄像头, 负责捕捉和识别传感器的信号;完成捕捉后, 数据传输设备将实时运动数据快速传输到计算机系统中进行处理最后由数据处理设备将运动数据进行修正、处理, 并将这些运动数据与三维模型结合, 驱动三维模型的运动。

2.2.3“3D替身”以及虚拟教学平台

“3D替身”和虚拟教学平台是解决方案的重要组成部分。如今的IT行业, 已经有很多款软件可以满足对3D人物模型的创建, 如Autodesk maya, 并且利用这些软件搭建虚拟三维场景。同时运用到虚拟现实建模语言 (VRML) 中的各种节点进行整合并设置交互, VRML的使用为WWW上的3D模拟带来变革。在这种虚拟教学平台中, 学习者通过自我控制行为表现与环境中的物体进行类似自然的交互, 从而产生了“身临其境”的沉浸感, 达到了一种及时、高效、无阻的交互。

3 网络虚拟教学实施过程及交互的最终优化效果

3.1 实施过程分析

网络虚拟教学平台最重要的目标就是实现师生和生生之间的无阻交互。本文主要介绍的是实时课堂交互, 因此虚拟教室是所要介绍的重点。虚拟教室是网络虚拟教学平台的重要组成部分, 也是进行远程实时授课、实现无阻交互的必要学习环境。教师和学生在进入平台后, 根据课程名称选择课堂。虚拟课堂实际上就是真实课堂的虚拟化, 同样拥有黑板、讲台、电子白板、课桌椅等教学必备工具。上课期间, 教师通过自身的实际运动来控制教师替身完成书写板书、播放视频、使用虚拟电子白板等操作, 学生模型会实现地体现学生的实际课堂行为, 如听课神情变化、记录笔记、回答问题等。虚拟课堂实施过程如图2所示, 下面对虚拟课堂的实施过程进行说明:

第一步, 课前准备阶段。师生选择自己的课程进入虚拟教室, 做好上课准备。师生共处一个课堂, 达到时间和空间上同一, 克服时空障碍, 使远程教学具备了面授教学的同样条件。第二步, 授课阶段。师生实时完成替身驱动。教师根据自己的上课风格开始授课行为, 学生替身表现出学生听课状态及行为。第三步, 课堂调控与学生交互阶段。对于教师来说, 可以真实展现自身课堂风采, 也能够轻易的对课堂进行实时调控和交互, 例如, 教师可以像面授教学一样观看学生上课表现, 根据学生替身的课堂行为了解到学生实际的课堂反应从而调整课程进度、调节课堂氛围以及进行实时答疑等;而对于学生来说, 由于自己的实际行为会通过替身的运动变化处于教师的实时“监视”下, 他们会更加集中精力的听课, 同时能够将自身在课堂中的言语、表情以及行为清楚简便的表现出来, 学习的主体性得到了体现, 学习动机得到了激发。

3.2 最终优化效果分析

笔者所介绍的解决方案中网络虚拟教学平台以及平台内的教学实施过程是整个方案的核心。利用这个平台实现了“人机交互”向虚拟“人人交互”的转变。这个网络虚拟教学平台克服了师生、生生之间远程实时授课空间上隔离、无法直接交流的弊端, 使远程教学具有面对面课堂教学的特点, 让学生的主体地位得到了体现。它所产生的优化效果可以从以下几个方面来总结。

3.2.1 创设了三维虚拟课堂场景, 实现直接的认知交互

远程教学中研究者一直致力于通过各种现代通讯技术手段来实现师生之间的交互。传统利用视频会议“人一机一人”交互模式, 在实际的实施中往往是以“教师为中心”, 师生的行为交流效果较之面授教育的课堂教学相差甚远。同时在交流知识的过程中, 由于网络以及窗口数量的限制, 师生、生生之间不能够进行充分的交流, 例如:由于师生、生生相互之间并不知道各自的课堂状态, 在教师提问时, 可能会出现多位学生同时回答问题的情况, 这影响了课堂有序性, 阻碍了教师对学生的实时辅导。而虚拟教学平台所构造的是类似传统面授课堂的三维学习环境, 它解决了无法面授所造成的课堂混乱等问题, 提高了认知交互的效率。

网络虚拟教学平台为实时反馈提供了便利。例如, 教师在授课时, 通过观察学生模型的表现后便可确定学生是否能够接受课程内容、自己所教授的方法是否满足学生的需要等, 从而便于及时调整课堂教学内容和方法。因此网络虚拟教学平台所创建的三维课堂场景, 通过增强师生课堂现实感, 让师生乐在其中。

3.2.2 采用替身行为机制, 激发学生协同学习的兴趣

在实时的课堂中, 时常会出现协同学习, 如:小组讨论等, 网络虚拟教学平台支持多用户替身在虚拟场景中的交互用户可以通过运动捕捉技术所形成的替身行为机制来实现替身间的交互行为, 从而改善了用户之间过去简单的基于对话框的文本交互以及利用鼠标和键盘控制替身的机械方式, 提高了协同感。例如, 学生可以根据需要进行走动, 让“替身”与所分配好的小组其他成员“替身”坐在一起, 这样既满足了学生心理上所需求的“面对面”的感觉, 教师也可以清楚的了解具体的分组情况, 这种愉快、自主的学习环境, 提高了学生进行相互交流积极性。

3.2.3 自然运动驱动替身行为, 促进师生之间情感交互

网络上的情感交互体现了在网络学习环境中人与人的社会关系和积极的内心情感的交流。人物的动作和表情是表达情感最直接的方式, 单凭鼠标键盘等来完成这些行为使师生的行为间接化、机械化, 并且容易产生疲劳, 有时甚至会因为操作不当而造成了相反的结果。网络虚拟教室的构建不仅给师生创造了面对面的课堂环境, 增强了人对真实课堂的体验感。同时突破了传统视频远程实时会议局限于语言交流, 也克服了现有的虚拟现实课堂中, 教师和学生无法表现自身神情、体态和行为所造成动作过于机械化的弊端, 为师生提供了更加丰富的情感交流方式。例如, 教师在自己的授课终端前表现教学行为, 利用运动捕捉技术和3D等技术可以将这些行为呈现在虚拟教学场景中, 学生也可以很轻易地感受到教师的个人风格, 拉近了师生的距离, 增强了师生之间的情感交流。

4 结束语

运动捕捉技术提供的是一种新的人机交互手段。它完成了将表情和动作数字化的工作, 比传统的键盘、鼠标更直接方便, 使操作者能以自然的动作和表情直接控制虚拟模型的运动。笔者所提出的运用运动捕捉等技术构建网络虚拟教学平台, 既克服了传统远程实时授课由于时空分离无法实现“面对面”的障碍, 又实现了师生通过自然运动控制替身行为活动的目标, 优化了远程教学系统交互功能。

参考文献

[1]吴丽华, 冯建平.移动实时授课系统的设计与实现[J].中国电化教育, 2005 (8) .

[2]汤跃明.虚拟现实技术在教育中的应用[M].北京:科学出版社, 2007.

[3]孙运达.多视点非接触式人体运动捕捉的研究[D].北京:北京交通大学, 2006.

[4]黄玲.捕捉虚拟人运动的运动控制技术的研究[D].北京:首都师范大学, 2007.

[5]刘英杰, 杨雪, 马捷.远程学习的情感与认知交互层次塔模型的构建研究[J].中国远程教育, 2008 (6) .

实时交互篇2

音乐可视化的实现形式与解决方案可谓精彩纷呈。音乐可视化有着广泛的应用:音乐分析、信息检索、表演分析、音乐教学、音乐认知、情感表达、游戏娱乐。基于不同的应用，会有不同的系统设计方案。在教学领域，可能会强调音符、乐器、旋律、和声方面;在音乐广场，通过控制的相关技术来实现音乐喷泉，着重表达喷水的花型组合变化、水柱高低、远近变化等;在大型表演、酒吧、展览现场，可能会更强调画面带来的强烈的视觉冲击;在游戏领域，可能会着重表现音乐自身包含的情感因素，通过虚拟角色的面部表情、动作变化及场景的变换来实现，等等。

4.1用户接口及系统构架

本系统设计为基于情感识别的实时交互式音乐可视化系统，采用一个可选的虚拟角色进行情感动作表达。系统需要减少系统负载和同时能够实时性地进行一音乐分析和可视化表演，从现场表演的麦克风和电子琴的音乐输入中提取出来的音乐特征通过相关信息处理和数据过滤，然后发送到音乐动画脚本和引擎，最后通过虚拟角色进行音乐情感的动作表达。本文希望允许用户与虚拟角色有一个沉浸式的交互体验，计算机的显示屏幕无法满足大型展览、表演现场的要求，虚拟现实的沉浸感也要求突破计算机显示尺寸的限制，使用大屏幕显示，可以采用圆柱型、洞穴状、或者矩形块拼接的大屏幕进行逼真显示，强制性制造出强劲的可视化效果。为了满足这个要求，可以把这个虚拟环境显示到一个大屏幕上，比如矩形块拼接的大屏幕或洞穴状的大屏幕，该屏幕可以提供实体大小的立体图像，希望大屏幕立体显示和人们的自然的用户输入方式可以缩短虚拟与现实之间的距离，通过这种方法，用户可以体验到这种与三维实体大小的虚拟场景的现实性的交互而产生的幻觉，允许用户与观察者体验这种表演者与虚拟角色之间的真正的交互而产生的强制性的沉浸感。能用一种很自然的音乐表达方式与虚拟角色进行交互也是很重要的。因此，本文应该确保一旦设计为该方式的系统运行起来，用户仅仅需要提供MIDI控制器或者麦克风的音乐输入方式就可以与程序进行交互。麦克风与MIDI控制器应该放置在特定的位置，以便当用户实时表演时可以很方便地观察到虚拟角色的反应。能够体现音乐情感，同时又具体极强的可观赏性和趣味性的音乐可视化系统是本文的追求。本文将围绕音乐情感为中心建立一个音乐可视化系统，可以用来音乐分析和音乐可视化，通过对现场表演的实时语音及MIDI处理输入，通过处理、分析，最后映射到虚拟角色中。系统以麦克风和电子琴作为输入参数，通过处理，提取出相关的音乐特征，随后进行情感检测处理，实时性地用虚拟角色面部表情和动作变化、虚拟场景的变换来表达情感因素，最后通过大屏幕进行显示。

图4一2音乐感知过滤层流程图

音乐感知过滤层的作用是双方面的。一方面，系统需要分析复杂的音乐数据输入流，以便提取有意义的音乐特征来准备后面的相关工作。另一方面，为了保证能模拟人类对音乐的情感反应的要求，系统需要采用前人对音乐情感方面的研究方法来组织这些特征。为了使角色得到音频信息流中的有用信息，系统需要将这种流变成一种简单的格式。因此本文在系统框架中添加了这种额外的音乐感知过滤层。在这一层中系统通过分析输入的音频信息，提取出重要的音乐特征，然后再将该层的结果作为输入传送给角色及场景认知层。为了对现场音乐表演中进行特征提取，系统对麦克风和电子琴的输入进行处理。本文采用MIDI接口和录音设备从现场音乐输入流中提取重要的特征，通过一系列变换处理，可以得到感兴趣的特征如歌声的音高、歌声的振幅、歌声的音调、描述歌手音色的数据等。同时，系统也对电子琴输入的特定的和音感兴趣，可以将输入的MIDI信息与预定义的和音信息相比较，然后提取出匹配的和音信息。这样，对现场原始数据进行处理之后，就生成了音乐的数字化描述。最后再将这些提取出来的音乐特征发送到特征记录器中进行下一阶段的处理，以便满足复杂的实时的音频分析的要求。

4.2.1特征提取

西方调式音乐，至少是由一系列音高、持久度和振幅组成，都是由一些和声结构的规则约束的。通过Hevner、Famsworth等人140，4’l的研究实验表明，音乐是可以表达情感的，即使对不懂音乐的人来说，他们也会感知到音乐中的一些潜在的和声规则产生的音乐情感，同时做出相关的情感反应。在此音乐可视化系统中本文采用这些情感规则来处理音乐输入，让虚拟角色获得认知技能。在认知层中，本文假定输入的音乐是有调的，这样可以方便在认知层中对音乐情感意义的处理。因为该层提取出来的音乐特征在表演者和虚拟角色的整个交互过程中是最重要的，所以本文把主要精力放在对该感知层的处理上，在介绍该层时需要不少篇幅。对于电子琴的和音输入，处理方法比较简单，利用电子琴通过MIDI接口将音乐信号发送到计算机，根据电子琴的参数规格可以很方便地得到现场弹奏的音高、持久度、速度、力度等信息。乐音体系首先是由于唱歌实践的结果而形成的，因此乐音体系中大部分的音是人的嗓音可唱的音。由于器乐的发达，就得用每秒钟振动16次到4000次之间的若干音来补充乐音体系。虽然如此在乐器上最富于表现力的音域和人声唱歌的音域是近乎一致的(频率范围大约为60到l000Hz)。

对于麦克风输入的歌声的处理，系统可以通过录音设备得到的数据，分析其频率和振幅，参考国际标准音高(即钢琴上小字一组的A)对应的频率为440Hz，每一个八度之间频率增加一倍，比如C比上一音阶的C，D比上一音阶的D的频率增加一倍。中间的频率，按照十二平均律公式算出来:由此可以得到所有音高。振幅与音量、持久度有关，音量可以由系统自定义，将处于某一范围的振幅认为是音高对应的音量，持续的时间即为音高的时值，或称持久度。

4.2.2特征组织

为了组织和音内容的输入，本文采用现在通用的音乐编码系统【59]。该编码系统的核心是采用一种字母表的概念，选定一个参考的字母元素，其它所有元素就可以通过与这个参考元素的关系来描述出来。本文的音乐可视化系统需要编码现场音乐输入的特征信息，因此，本文选择调的主音来作为参考音符。所有的后面感知到的音符都将使用该参考元素进行编码，因为它们都与调式音阶的主音相关。下面举一个例子来说明这种编码系统:在C调音乐中，主音音符C，将作为参考音符。如果选择的字母表是半音阶(一个音阶包含12个半音)，D(即c上的

大二度)将用字母表中在主音参考音符之上的2步来代表，而喇即C上的小三度)则用字母表中在主音参考音符之上的3步来代表。音符是由音高和持久度组成的，上面描述的音乐编码系统是针对音高的，再结合在电子琴中弹奏的持久度，系统可以描述每一个歌声片断中的音符。为了决定哪一个音符是被表演者强调的，本文可以采用这样的方法:当某音符有别于周围其它的音符的时候就可以认为该音符是被强调的，比如增大的音量或者高低音符间的突然的转变。通过第三章提出的螺旋模型和调性确定算法，分析音高序列的前面若干个音高事件，确定该音乐的调性、节奏和速度，然后将特征提取阶段得到的音高序列转换为旋律，得到的所有这些数据就放到特征记录器中，以便为下一阶段的处理做好准备。4.3角色及场景认知层

基于该层的感知处理，角色评估接收到的数据，决定应该如何反应。角色需要分析它们接收到的输入和决定一个大致的反应行为。在该层中，角色的个性是由如何感知事件进而影响角色的内部状态来定义的。本节将描述系统的动画角色是如何模拟一个对感知到的音乐特征的情感的理解的。

4.3.1情感检tll

在认知层中，由感知层发送过来的信息需要被接收和分析，用来模拟虚拟角色的内部状态。特征组织器中包含了这些现场音乐表演的信息(歌声音程、每个歌声音符的重要性数据、关于歌声节奏的信息以及用户弹奏的和音数据)。然后本文需要模拟一个对感知数据的认知意识，因为角色需要有一个通过动作表达出来的感兴趣的内部状态。音乐表演的认知意识可以采取多种形式。当听到一个关于愉快的特别的旋律时，角色可能会感觉到快乐，或者当接收到一系列感觉恐怖的特定的和音，角色则可能会进入一个恐惧的状态。为了给角色的认知创建一个有意思的和灵活的认知层，本文选择了Cooke在文献[431中对音乐的研究，特别是对音乐情感的研究。Cooke在文献[43}中的经典研究为本文提供一个全新的视角来观察音乐和情感之间的更一般性的关系。为了实现这种像角色喜欢一些特定的旋律而不喜欢另外一些，系统可以创建一个针对音乐理论特征的足够灵活的角色用来模拟情感反应。Cooke己经从大量的音乐片断中识别特定的特征，使用一种更一般性的方法提出使用在调式音乐中的一些特定的特征用来表现特定的情感概念Cooke识别出音阶中所有十二个音符的基本的表达功能。如果一个旋律里包含很多小三度的实例，Cooke认为这些片断的恰当解释应该是表达出“难以接受的”或者是“悲伤的”情感。很多著名的包含小三度的表达悲伤情感的音乐作品实例可以映证这个结论，例如Strauss的《蒂尔小丑》中蒂尔被处死的地方。

相反，Cooke引用美国流行歌曲《Polly一woll梦doodle》来说明大三度是代表“和谐的”或者“愉悦的”情感。通过应用这种对音乐旋律的规则，系统可指定现场音乐表达的认知意义。系统的音乐感知过滤层通过特征提取，对现场音乐的上下文描述了所有的音乐旋律中的音符。了解这些以后，本文可以很容易地将音高关联到Cooke提出的情感上下文。这种情感上下文可以用来修改动画角色的内部状态并月.触发相关的反应行为。该音乐动画系统使用一个“驱动系统”来控制角色的行为。很多电脑游戏玩家都很熟悉这种机制，即这样的驱动系统是操作在一定原则之上的，那就是一旦特定角色特征的级别达到了一个触发的最大值或者最小值，角色的行为就被触发。例如，当角色的能量驱动达到最小值时，它就趴下睡觉，而当能量驱动达到最大值时，它就马上爬起来。系统的角色就是使用这种驱动系统来表达它们的情感状态的。根据Cooke的理论，小三度意味着悲伤，而大三度则表示快乐。系统的角色可以有一个“快乐驱动”，当歌手唱出一个包含很多大三度的旋律时，这个级别值就增加，而如果是小三度则减小。既然系统的感知层也可以分配相应的意义值到每一个歌唱音符，“快乐驱动”的增加量或者减少量也可以由音符的意义值决定。提取出来的其它的音乐特征，如和音、歌唱音色等，也可以用来影响角色反应的驱动。在现场音乐表演期间，对音乐输入的认知处理允许动画角色维持一个变化中的情感状态。音乐动画表达层使用动画来可视化角色行为，这种情感状态随后可以通过表达层传达给观众。

4.3.2其它因素的认知

在情感色彩方面，调式是音乐的一种极重要的表现手法，因为它能表现内容的某引起重要情调。在这方面说来，每一调式由于它的表现能力而在各种类型的作品中被应用。调式和内容的各种关系是极少有例外的。例如普通总是以大调来表现胜利，小调来表现悲伤、忧愁。可是调式能如此广泛应用还是因为作品中的内容是由许多手法，如调式、旋律的方向、旋律中的音程、节奏、速度、音的强弱变化、音的力量、音区、音色等的结合来表现的，而式在这必需的结合中不

过是手法之一。完美的可视化呈现需要考虑多方面的因素，除了上述因素对情感方面的表现力之外，还应考虑它们对其他心理感受的表现力。例如高的音高与低的音高相比，表现为亮、高、轻、小、敏捷;强的音比弱的音相比，表现为大、重、近;慢的音与快的音相比，表现为大、重、慢、稳重;快的起音与慢的起音，表现为生硬、果断、急躁、凶狠t421。

4.4角色及场景表达层

角色需要展示可视化的动作来表明它们认知的状态。当一个动画角色己经处理了感知的数据并且决定做出怎样的身体反应行为时，这些行为将会通过动画的形式表达出来。该音乐动画系统在运行时生成了这些动画，可以通过一种过渡的动画来逐步地添加到各种不同的预定义的姿势之间。动画的行为在情感或强度之间变化，从而体现出虚拟角色的认知状态。本节将描述角色和场景表达层是如何工作的。

4.4.1将音乐映射到行为

在认知层中，角色的内部状态被定义好了。然后这种内部的状态通过表达层中自动生成的动画来实现可视化。为了完成这种音乐可视化效果，系统需要创建一种足够复杂的角色用来产生行为，这种行为被使用者和观察者认为将是音乐输入的及时反应。角色需要监视感知层的数据，从而决定如何反应。每一个角色需要注意特定类型的数据并且忽略其它的数据。有些角色可能对所有的歌声的音高和振幅感兴趣，而其它的角色仅仅关心从键盘输入的大小和弦。这些决策是由设计出角色的程序设计者做出的，即角色只对特定数目的特征感兴趣。下面就以一个角色来举例说明。当用户唱出一个高于中央C的音高，在为该事件负责的音乐感知过滤层中，就在特征记录器的旋律中就写下该音高事件的发生。该角色监视旋律中的音高信硕十学位论文第四章音乐可视化系统设计与实现息，当感知到该事件的时候，它的注意力就马上集中起来。该过程是由一段动画来表示的，即角色当事件的发生时转变为表达出一个“专心的”状态。如果该角色长时间地没有听到任何歌声，则它变得很无聊，然后开始趴下睡觉。只有当用户选择发出另一个相似的音高，它才醒来，在这段时间里它的注意力不太集中，会忽略掉一些小小的噪声。这种行为控制类型被称为驱动机制，即对角色的每一个状态都匹配一个驱动。更完善的驱动机制是，每一个驱动都有一定的级别值，驱动系统监视每一个状态的当前的级别，当到达闭值时刁‘触发相应的行为。在上例中，与角色内部状态相关的是“无聊的”级别值，当角色的“无聊的”驱动达到一定的闽值时，它就开始睡觉。当它听到用户发出相关的声音时这种“无聊的’，级别值就减小，而当用户不发声的时候该级别值就增大。这是在用户输入与角色行为之间的一个很简单的映射例子。如果角色能够展示更加复杂的行为，那将是更有趣的事情。例如，当听到一个低音的音高时，角色就慢慢地扭转头，而当它感知到一个很具攻击性的声音时，当就突然转移它的注意力。在感知到高音C时它甚至捂住耳朵。当然，这些行为都是角色设计者设定的。设计者选择角色的动作来模拟音乐输入，同时也决定着如何进行急剧的或是平滑的过渡用来展示音乐情感。

4.4.2动画的实现方法

计算机动画是计算机图形学和艺术相结合的产物，综合利用了计算机科学、艺术、数学、物理学和其它相关学科的知识，在计算机上生成丰富多彩的虚拟真实画面。一般来说，计算机动画分为关键帧动画、变形动画、过程动画、关节角色动画和基于物理的动画。过程动画指的是动画中物体的运动或变形由一个过程来描述。最简单的过程动画是用一个数学模型去控制物体的几何形状和运动，如水波随风的运动。较复杂的则包括物体的变形、弹性理论、动力学、碰撞检测等。基于物理模型的动画技术考虑了物体在真实世界中的属性，如具有质量、转动惯矩、弹性、摩擦力等，并采用动力学原理来自动产生物体在各个时间点的位置、方向及其形状。此外，动画师不必关心物体运动过程的细节，只需确定物体运动所需的一些物理属性及一些约束关系，如质量、外力等，引入了转动惯量、弹性系数和阻尼等概念，把分析计算分解为水平和垂直两个独立的方向，通过这种简化，系统可以进行实时模拟，为了达到实时的效果，在一定假设条件下化简模型和运动求解是非常必要的。本文的系统可以综合运用上述几种方法。角色模型若是基于弹性关节的骨架模型，这就是关节动画。动作姿态的变换若是由动态方程控制的，交互控制和碰撞检测都用到了无质量的弹簧模型，这就是基于物理的动画方法。系统的脚本是姿态的顺序编排，可以把脚本的每一行看作是一个关键帧，但这里的插值过程是系统根据物理原理自动完成的。其实用交互控制模型以设计姿态，也可以看作是模型由静止状态的变形过程。

4.5系统的模拟实现

为了论证本文中主要的算法、解决方案的正确性与可行性，本节简化了前面提出的`系统并模拟实现了该系统。该模拟系统的相关设计与显示结果如下所述。以Microsoft叭suaiC十+6.0作为开发环境，选择基于对话框的MFC应用程序进行模拟。采用MIDI文件模拟现场音乐信号输入，即便如此，本节仍实时分析音乐数据流，而不是对输入的音乐全篇处理后再进行分析，并在特定时间触发相应事件。只考虑音高特征，忽略速度、力度等特征。只考虑音乐在情感方面的表现力，忽略其对其它心理感受的表现力。在情感检测方面，只考虑本文第二章中提到的基本术语的情感色彩，对单个的音程、和弦不予考虑。采用图片集模拟角色的脚本动画库。

4.5.1数据结构

音高事件(即音符)主要包括音高、起音、落音、时值、力度等信息，因此自

(1)调性确定算法

基于本文第三章提出的螺旋模型和调性确定算法进行实现，在音高事件的个数到达预定义的数目时调用该调性确定函数，其伪代码如图4一6。初始化音效中心poiniCE为原点;初始化当前总Tick数nTicksum为0;

(2)情感匹配算法

在情感匹配之前，需要预定义一些情感术语，本模拟系统参考本文第二章中的情感术语如图4一7。与死相联系着的绝望的情感，白外返回的痛苦情感，即对悲哀的接受或屈服、消极的忍受或与死亡相联系的绝望图4一7情感匹配术语然后再对音乐的实时旋律进行情感匹配，以小调为例，其伪代码如图4一8。试确定的调性的调式为小调)道

4.5.2模拟结果

运行后的模拟界面如图4一9(a)。“监听”用来打开MIDI文件，模拟角色对现场音乐信号输入的监听，当演奏的音符数超过预定义的个数16时，点击角色所在的图形区域，程序以消息框的形式提示当前音乐采用调性确定算法得到的调性，如图4一9(b)。通过实验，该模拟程序对各音乐的前16个音符确定的调性如下:巴赫的《C大调赋格曲》，C大调;巴赫的《E小调赋格曲》，E小调;巴赫的《G小调赋格曲》，G小调;贝多芬的《热情奏鸣曲》，G小调;德彪西的《月光》，Db大调;李斯特的《圣诞之歌》，F大调;肖邦的《雨滴》，Db大调。通过本模拟程序，进一步验证了螺旋模型和调性确定算法的正确性。

图4一9模拟界面及调性确定

确定了该首音乐的调性之后，系统就开始对音符序列进行情感匹配，并实时更新各情感驱动的级别值，当某情感驱动的级别值到达它的闽值时就触发相应的动作。如图4-10(a)，贝多芬的《热情奏鸣曲》是在法国大革命时期英雄主义思想的启示下创作的，其中那明晰生动的节奏，那热情奔放的旋律，那星驰电击的电流，无不深刻地体现了“人类的良知”，充分显示了在战斗洗礼中的英雄们那悲壮激烈、坚贞不屈的崇高精神。又如图4一10伪)，李斯特在他的作品《圣诞之歌》中，极力表现一种天使和孩子们的天真、纯洁和纯粹的幸福。图4一10模拟系统的情感表现

4.6本章小结

本章首先简述了现有的音乐可视化系统的实现技术，指出其相关的应用领域。然后着重阐述了本文拟采用的音乐可视化系统的解决方案，提出了系统处理流程，并对各个环节如音乐感知过滤层、角色及场景认知层、角色及场景表达层进行了比较详细的介绍，描述了相关的实现原理及处理方法。由于麦克风输入的歌声数据量很大，所以本文提出的系统只对这些数据提取一些主要的音乐特征如音高、振幅等，从而满足实时性的要求。对于电子琴输入的和音信息，系统也只对其中特定的信息感兴趣，那就是与角色动作相关的情感信息。实现了模拟系统，进一步论证了螺旋模型和调性确定算法的正确性以及系统解决方案的可行性。角色的多样性、动作集、碰撞检测、花草山水、风雪烟雾、颜色变化等问题，有待进一步研究。

第五章结论

现代社会，随着工作节奏的加快和工作压力的增加，人们愈加需要休闲和娱乐。信息技术的娱乐应用也就成为计算机应用的一个重要发展方向。同时，随着计算机技术的发展，音乐可视化日益得到研究机构和公司的重视，出现了各种音乐可视化系统。音乐可视化有着广泛的应用:音乐分析、信息检索、表演分析、音乐教学、音乐认知、情感表达、游戏娱乐。

5.1工作总结

本文通过对基于情感识别的实时交互式音乐可视化研究的初步探讨，工作总结如下:

(l)研究了国内外现有的音乐可视化系统。详细地论述了音乐可视化的相关内容，重点介绍了音乐可视化的研究内容、研究进展。

(2)总结和分析了音乐情感方面的研究。围绕音乐到底是一种怎样的艺术、表现了一种什么样的世界、能否表达情感以及如何表达情感等问题进行描述，对音乐的心理学也作了简单介绍。

(3)提出了螺旋模型及调性确定算法。提出了一种螺旋模型，在此基础上提出调性确定算法，并通过理论及实例论证了模型和算法的正确性和实用性。 (4)提出了系统设计方案及实现了模拟系统。阐述了本文的系统采用的解决方案，描述了系统流程及处理机制，并实现了一个系统简化版本的模拟系统，有着较好的效果。

5.2研究展望

(l)音乐特征的提取

音乐中有各种各样的特征，如频率、振幅、音色、音调、音高、音长、和弦、速度、响度、节拍及近来提出的一些新的特征，如能量、过零率、频谱矩、频谱流、带宽、带周期、噪音帧率等。音乐中有如此多的特征，对每种特征都进行提取是很耗费时间的，也是很不现实和没有必要的。因此，应该根据音乐可视化的应用方面的要求，提取出音乐中的那些必要的特征，忽略或者去除那些不必要的特征，从而缩短程序运行时间，达到实时性等方面的要求。在交互式的音乐可视化系统中，对于不同输入设备(如麦克风和MIDI输入设备)得到的数据，对其特征提取的方法也应该是不一样的。此外，音乐的风格也是多样化的，最大的分类是严肃音乐和流行音乐，而流行音乐下有乡村音乐、民谣、爵士乐、摇滚乐、流行美声等分类，如果能在对音乐的特征提取过程中得到音乐的分类，然后采用不同的可视化风格来反映这些不同的音乐风格，效果一定会更好一些。因此，在特征提取过程中得到音乐风格的特征，是音乐可视化进丫步的追求目标。

(2)对音乐的情感检测与情感表达

音乐既是一种娱乐方式，也是抒发作曲者和歌手情感的手段。情感因素是音乐中的一个重要的特征，在音乐可视化研究中越来越受到重视。因此，必须建立一个完善的情感检测以及情感表达机制。这种情感检测机制应当是综合性的，包括对音乐风格的分析、对音乐与情感关系的准确刻画、联觉中的各音乐特征与情感的对应。情感表达机制还应扩充表达情感的角色的动作集，尽可能准确地表达出尽可能多的情感。

(3)以用户为中心的系统设计

应用系统的设计应该以用户为中心，也就是说要有灵活的图形用户界面(GuD，实时性地反应用户的操作，用户的操作和输入的方式要尽可能地简单，而输出的结果要尽可能完美，等等。这就要做好用户需求调查和分析。在设计音乐可视化系统之前，必须要对用户的需求进行调查和分析，以此来确定系统的用户类型和应用类型，如教育方面的音乐教师和学生，商业娱乐方面的大众人群等，从而设计相应的可视化系统。

(4)场景对象和动作建模

WindowsMediaPlayer中的可视化效果是音乐可视化的雏形，并为音乐可视化提供了一个有用的参照。但是它的可视化效果过于简单和单调，使得用户感觉到这些可视化模式与所播放的音乐之间并没有什么关系，只是有一些微小的变化重复出现而己。这种面向大众的音乐可视化的娱乐应用，应该要另辟蹊径，采用场景以及角色对象来实现，角色对象可以是各种拟人化的动物、花草树木、自定义的动画角色甚至人本身，而场景对象可以是山河湖泊、花草树木等。为了避免角色的动作种类太少或者场景对象的种类太少而产生的单调性，以及表达音乐中各种复杂的情感因素，就必须尽量扩充角色的动作集，增加场景对象的种类。

(5)虚拟现实技术的硬件和软件支持

音乐可视化要有好的沉浸感，就要用到虚拟现实技术。这就需要解决相关的硬件设备和软件技术方面的支持问题。硬件设备方面，三维立体声设备、大屏幕主要有洞穴状、圆柱型或者由矩形块拼接成的大屏幕)投影设备等是必不可少的。大屏幕的立体显示、实体大小的虚拟角色以及用户输入接口的最自然的方法都可以帮助减少现实和虚拟的距离，让用户体验与虚拟角色之间的真正的交互过程，从而产生强制性的沉浸感。软件技术方面，如碰撞检测算法，以此来确保虚拟角色的行走路径和活动范围的合理性;丰富的特效，如模拟火焰、水流、烟雾、雨雪等，光照、阴影等，花草树木随风摆动、实时水波等;触发机制和动作定义，由特定的音乐特征触发角色相应的动作，通过给定的几个参数就可以实现各种动作等。

(6)机群并行处理问题

由于视觉效果是对音乐播放的补充，因此，不能由于处理可视化效果而占用了大量的CPU处理时间而使得音乐本身播放的不连续或者可视化效果的不连续因此，一个效果好的音乐可视化系统需要性能优化的算法以及高性能的计算机(也包括高性能的显卡和声卡)等方面的支持。如果要实现的算法和功能足够复杂，如三维的虚拟现实技术，则需要将多台计算机组成一个网络，进行机群并行处理操作，由不同的计算机处理不同的功能，在尽量短的时间内实现总体功能。

致谢

实时交互篇3

2001年至今先后主持完成了国家“十五”863/CIMS重点招标课题“实时数据库及监控系统”及其滚动课题“实时数据库智能监控平台”，以及国家“十一五”863计划先进制造领域目标导向课题“面向全流程多尺度的流程企业综合自动化集成应用平台”，成功研发了国内第一套完全自主知识产权的大型分布式实时数据库系统Agilor。

2007年8月起兼任中国石化生产执行系统研发的总设计师，带领联合研发团队成功地设计开发了中石化生产执行系统SMESv3.0。

近年来荣获国家科技进步二等奖1项，中国科学院科技进步一等奖1项以及中国石化科技进步一等奖1项；拥有国家技术发明专利2项，在相关主流国际会议上发表高水平学术论文70余篇。

2008年，在美国纽约召开的外国关系理事会上，信息技术领域巨头IBM以《智慧地球：下一代领导人议程》为题，正式提出“智慧地球”的概念。应该说，IBM描绘的以“物联网”和“互联网”为主要运行载体的“智慧地球”，从某种程度上看，是对当前世界所面临的许多重大问题的一种积极的解决方案。

业内人士指出，“智慧地球”理念的提出，能为IT产业带来新的希望，能够使信息技术渗透到社会的各个角落。信息技术的广泛应用，也可带动人们生活和生产方式的改变。智慧城市、智慧企业、智慧电网、智慧医疗等，正在成为描绘未来世界的蓝本。

其实，我国科学家和世界各国的信息技术精英一样，早在“智慧地球”的概念提出之前，就已经在打造这一智慧未来。“智慧地球”理念所涵盖的传感器技术、网络技术、智能信息处理等技术，我国均已具备一定研发基础和产业化能力。

王宏安，中国科学院软件研究所人机交互技术与智能信息处理实验室主任，与他的团队一直致力于实时智能与人机交互的研究，通俗意义上来说，即如何智能化生产，如何智慧化生活。

实时智能：打造智能工厂

“智慧地球”通过新一代信息技术改变人们交互的方式，提高实时信息处理能力及感应或响应速度，增强业务弹性和连续性，促进社会各项事业的全面和谐发展。同时，随着智能技术快速发展和应用，智慧的概念逐渐延伸至各个领域，如智能电网、现代物流、智能交通、智慧安防、环境监测等。

智能技术是用机器来模拟人的外在认识及思想行为的技术总称，核心是用计算机来模拟人在各个过程中的智力活动（如分析、推理、判断、构思和决策），从而扩大、延伸和部分替代人类的脑力劳动，实现知识密集型生产和决策自动化。

实时要求与智能技术的结合导致了实时智能技术的出现，扩展了传统实时技术领域。其内涵包括：

以功能自动化和决策支持为目标；

更多关注实时信息的分析、知识或规律的发现以及快速的决策反应等；

实质是用实时智能技术取代传统的某些需要人工判别和决断的实时任务，达到最优化。

王宏安对此形象地描述：“在这一瞬间下雨了，你现在拿到伞，和你一个小时之后拿到伞的效果肯定截然不同。”“过去人们解决问题不考虑时间限制，但是有的事情和时间约束是密切相关的。实时智能，我们关注的是怎样把时间约束放到智能算法里面去。实时智能的核心问题是怎样在具有时间约束的情况下用人工智能方法解决复杂问题。”

从“九五”开始，王宏安及其团队就开始在实时信息处理上倾注心血。他们成功研发了国内第一套完全自主知识产权的大型分布式实时数据库系统Agilor。该系统不仅能够实时采集来自不同控制系统或传感器网络的实时数据，而且支持远程实时数据压缩与传输服务，具有海量实时、历史数据的压缩、存储与解压、查询等功能，同时具备实时事件报警、过程事故跟踪等功能，每秒能够处理20000个数据更新事务和完成5000条主动规则推理。在石化、电力、冶金、航天、电信等行业200多家大中型企业得到成功应用，受到了用户的一致好评，实现了与国外主流实时数据库系统产品同台竞争，打破了国外实时数据库系统产品在国内的垄断格局。

在这之后，他们开始了与中国石化等单位合力打造“石化智能工厂”的征程。

石化智能工厂是为满足我国石化企业从总部至下属企业及工厂智能化的发展需求，面向石化产品的全产业链环节，综合采用先进制造技术、智能信息技术和高效辅助决策机制为企业服务的新型生产运营模式，以实现复杂环境下石化生产运营的高效、节能和可持续发展，其主要特征包括泛在感知、高度集成、模型驱动、自治能力和人机协同。在中国石化的鼎力配合与支持下，他们将研发团队与业务部门进行捆绑，从企业生产的实际需求出发，针对应用进行技术架构设计，于“十五”和“十一五”期间，在科技部重点支持下，成功研发了面向大型流程企业并具有自主知识产权的工业软件SMES。

SMES研发团队汇集了中国石化、中科院软件所、浙江大学等单位，打破了国外技术垄断，取得了基于工厂模型的可配置体系结构、多层递阶物料平衡算法、事件驱动的操作过程管理与智能报警等多项创新成果。SMES现已成功应用于中国石化燕山、天津、茂名等多家特大型炼化一体化企业，并获中国石化科技进步一等奖（部级），列为中国石化“十一五”重点推广项目。

据实验室成员刘伟博士介绍，目前这一软件已经成功应用于中国石化近七成炼油厂，并在“十二五”期间获得进一步推广。

人机交互：如何智慧生活

Iphone是当下备受推崇的数码新宠，在谈到人机交互时，中国科学院软件研究所研究员田丰，首先就提到了它。

在田丰看来，iphone的热销，除了硬件系统过硬之外，更在于它人机交互方面的成功：“iphone等设备中的多指触控不单单是交互中运用手指数量的增加，更多的是将交互行为从离散的点击交互提升为连续的手势交互，而这些手势，如利用手指的滑动和轻弹来移动和浏览对象，或利用两指的捏紧或撑开来进行对象缩放等，都是来自于我们日常生活经验中的操作方式。”

如果你认为人机交互只限于手机或者电脑显示屏，那你就大错特错了。

王宏安说，人机交互不光体现在移动终端方面，也应用在虚拟现实、增强现实这一领域，有着面向国内重大需求的应用。

在这一点上，北京、河南等多所全日制小学和打工子弟小学的孩子们似乎比我们的理解更为深刻和直观。

作为“面向发展中国家的移动和渲染式识字研究”的国内合作者，人机交互技术与智能信息处理实验室与美国的卡耐基梅隆大学、加州大学伯克利分校合作，利用手机等交互设备，对上百名儿童进行用户研究和可用性分析。发现相关研究成果不仅可以增强儿童的创造性、学习和协作能力，还可以帮助孩子们获得同课堂学习一样的效果。

田丰团队采用沉浸式自然交互的思路，利用中国的传统文化—皮影戏的形式，将手机和其他计算设备融入其中。使孩子们可以根据提供的模板发挥想象，创造皮影形象。他们把像护腕一样的传感器戴到手腕上，就可以和同伴一起创造和享受在屏幕上用数字技术表演的皮影剧情。

这种方法利用儿童在日常活动中已经形成的经验和知识，大大提高了交互的自然性，减轻了认知负担，并且通过传统文化的形式可以提高孩子们的学习和活动兴趣。更为重要的是，将信息技术引入到传统的学习和文化活动中，带来了传统教学方式和活动方式在角色、活动规则、协作方式等方面的深刻变化。孩子们由被动学习变为主动学习，通过争论、判断和自我纠正的迭代过程来学习知识，这是很难通过传统的课堂教学方式实现的。

除此之外，王宏安还为我们介绍了实验室与协和医院合作研究的最新成果Early Warning。而这一成果，则应该属于智慧医疗范畴。

对于心脑血管疾病患者和高风险人群来讲，治疗时间窗口很重要。如何实现这类潜在患者的极早发现、极早治疗，是医务工作者十分关注的问题。通过人机交互传感器，医院可以实时监护患者的行为，如发现异常，便有意识地引导他做一些辅助治疗，并根据症状区别告诉潜在患者如何对症治疗。人机交互和实时监测技术，成功实现了心脑血管疾病的早期监测。

目前世界各国都将人机交互作为研究重点，我国中长期科技发展规划已将人机交互列为前沿技术和基础研究的重要内容。然而，我们目前人机交互在国内还处于起步阶段，所产生的国际水平的研究成果很少。人机交互技术与智能信息处理实验室在这一领域做出了开拓性的学术贡献：通过近几年来的努力，整个团队在ACM SIGCHI年会、ACM IUI、ACM Trans.、IEEE CVPR、RTSS、RTAS等重要期刊或学术会议上发表论文200余篇；其中，大陆研究机构发表在人机交互顶级会议ACM SIGCHI年会的11篇文章中，有5篇出自该实验室，在海内外产生重要影响；发表在实时领域顶级会议IEEE RTSS’06的一篇论文，实现了20多年来零的突破；他们还首次提出“以人为中心的信息物理融合系统”。

王宏安曾经非常醉心于数学研究，却走进了计算机的这道门。现在，他已深深喜欢上了计算机。他说，“未来人们将总是利用一些信息系统跟环境打交道，我们希望能够通过我们的努力，使人机交互的信息系统更符合人的认知特点，使人们能够利用它改造自然、研究自然、享受自然，实现更好的生活，这是一个愿景。”

这样的愿景不仅是王宏安和他的团队钟情的梦想，在IBM的“智慧地球”的梦想中，也为中国量身打造了六大领域的智慧解决方案。

如果IBM的计划得以实施，“智慧地球”对我国国家安全和信息安全可能带来负面影响。目前，在互联网领域，我国能够掌控的核心技术还十分有限，如果再加上传感器和射频标签的普遍应用，由此带来的安全风险也就更加难以估量。

只有我们自己真正掌握了与“智慧地球”相关的核心技术，我们才能从容地应对“智慧地球”可能给我国带来的各种影响，才能真正实现我们心中“智慧世界”的蓝图。

号码预留系统实时交互性的实现篇4

传统的Web应用程序强制用户进入提交、等待、重新显示的模式。即用户的界面操作触发HTTP请求, 服务器在接收到请求之后进行业务逻辑处理, 比如, 保存数据, 然后向客户端返回一个HTML页面。但服务器处理数据的时候, 用户处于等待的状态, 每一步操作都需要等待, 当客户端频繁向服务器端作出这样的请求的时候, Web用户界面在响应的实时性非常不理想。

而Ajax带给用户完全不同的浏览感受。传统的动态网页技术被隐藏到Ajax的后台。用户所看到的只是一个静态页面, 不需要在提交页面后等待或者主动刷新网页。动态程序反馈的结果被直接无刷新地显示在这个页面上。再加上对application和session设置的利用, 更是可以提高后端对客户端的响应速度, 因此利用Ajax, 以及JSP中的application和session开发的Web应用程序能够提供响应极其灵敏的Web用户界面, 使得应用过程很自然, 操作很流畅, 并消除了页面刷新所带来的不便。

1、关于AJAX

1.1 AJAX简介

Ajax全称为Asynchronous JavaScript and XML, 即异步JavaScript与XML技术。Ajax并不是一门新的语言或技术, 它实际上是几项技术按一定的方式组合在共同的协作中发挥各自的作用, 它是由JavaScript、XHTML、W3C DOM、XML、XMLHttpRequest复合而成的异步通信技术, 核心是JavaScript和XML-HttpRequest。XHTML和CSS标准化呈现, W3C DOM负责解析来自服务器端的XML响应信息和动态显示信息, XMLHttpRequest负责发送异步请求和接收异步响应消息, JavaScript负责在浏览器端实现所有程序逻辑。

1.2 AJAX工作原理

Ajax的工作原理就是在浏览器和服务器之间加上一个中间层, 使用户操作与服务器响应异步化, 而这一中间层所要做的工作都是由Ajax引擎 (Ajax Engine) 来完成的。实际上, Ajax引擎就是一些复杂的Javascript程序, 这些程序通过调用XML-HttpRequest对象的属性和方法来与服务器端进行数据交互, 然后再通过DOM来解析处理XML文档和部分更新HTML页面的内容。

2、号码预留系统中需要解决的问题及解决方案

2.1 号码预留系统中需要解决的问题

随着电信行业竞争的日益激烈, 电信公司的客户渠道管理日趋完善, 对于一些含金量高的政企客户 (大客户) , 电信公司往往有专门的客户经理负责上门提供服务。而目前中国电信的IBSS客户服务系统中并没有专门向客户经理提供电话号码预留的功能, 因此, 必须外加方便客户经理预选号码上门提供服务的系统。

客户经理在预选号码的时候, 每个客户经理往往要一次选择多个号码, 这时候有可能有其他的客户经理同时也在选其中相同的号码, 因此系统必须要实现"先点选先得到"的功能, 也就是为系统提出了这样的一个问题--当A经理和B经理同时打开一个号码列表时, A选择了一批号码在没有提交之前, 而B也选择了若干跟A相同的号码时该如何处理的问题。

如果用传统的web方式去实现, 会导致客户经理每点选一个号码就要向服务器端提交一次页面, 服务器响应一次就刷新一次页面, 每次刷新都要从服务器端把页面的所有信息内容下载一次, 连续选择几个号码, 或者几个客户经理同时在工作的时候, 甚至要导致系统无法正常工作。

2.2 解决方案

现在, 越来越多的人开始尝试基于Ajax进行无刷新的Web应用程序的开发, 为解决上述问题, 笔者利用Ajax异步发送消息的特点, 把选择号码的信号通过XMLHttpRequest对象实时地发送到服务器。经过服务器处理后, 把结果通过Ajax异步传输方式返回给页面, 就能实时地把号码的状态呈现给用户。而服务器端的逻辑代码主要实现两个功能:一是检验号码;二是记录号码。两者并不独立, 而是协同工作的。它们的工作是基于内存数据库的两类数据表, 用于记录号码。第一类是保存所有已选号码和对应的操作人, 有且只有一个, 号码和操作人是键和值的关系。第二类是保存单个客户经理的已选号码, 每位客户经理对应一个。选择号码时, 两个功能的主要工作流程是:服务器接收到选择号码的信息后, 检查第一类表中是否存在号码, 不存在则向两类表都保存该号码, 表示可以选择此号;如果存在, 则有两种可能 (原来的操作人取消该号码选择或其他操作人在没刷新情况下选择了号码) , 需要再进一步判断。由于在第一类表中, 号码和操作人是键值关系, 可以从中得到操作人, 并与本此操作人作比较。匹配则是前一种可能, 作取消选择操作, 把两类表的号码删除;不匹配则是后者可能, 把从一类得到的操作人返回到页面。

由于数据不保存在数据库, 改用了保存在内存数据库hsqldb中, 配合Ajax的无刷新效果, 特别适合选择号码这种频繁操作。因为Ajax异步传输信息的特点, 使得在频繁的操作中轻松地解决选择号码的"先到先得"问题。

3、选号系统实时交互性具体实现

3.1 页面对事件响应的处理

客户经理选择号码, 通过触发onClick事件调用addList () 函数, 并把该号码以参数形式传入。代码如下:

addList () 函数先通过createXMLHttpRequest () 函数创建XML-HttpRequest对象, 然后利用XMLHttpRequest对象的open方法通过异步的方法把号码number传递到服务器。然后onreadystatechange方法调用callback函数。代码如下:

在callback () 函数中当readyState的值是4 (请求状态为完成) , 并且status的值为200 (服务器的状态为OK) 时, 把从服务器中得到的其中两个值, 分别存在两个变量selected (号码是否被当前操作人选择/号码没被选择) 和number (所选号码) 中。判断变量selected如果是"true"则调用setEstate函数, 并传入number参数。SetEstate函数对当前号码的状态作判断, 如果为"空闲", 则设置为"已选";如果为"已选", 设置为"空闲"。如果变量selected是"false", 则号码已被其他人选择。进一步向服务器取得选择该号码的操作人存入变量nameSelect, 并连同变量number以参数形式传入adviseIt () 函数进行调用。adviseIt () 函数会以警告框提示用户, 此号码已被选择;并把该号码的checkBox组件设置为不可选, 更改号码状态和操作人。

3.2 服务器对各个不同用户号码的处理

服务器通过类NumberAction的addList () 方法接收到选择号码信号。addList () 方法中定义的变量包括number和name用于接收页面传入的数据, 并交由内存数据库处理;selectMap用于存储所有已选号码和对应操作人;selectList用于保存当前操作人的已选号码;res用于保存返回页面信息。先判断selectMap中是否存在number, 关键代码为"selectMap.containsKey (number) "。如果存在, 则该号码已被选择, 需要进一步检验操作人, 比较已选号码对应的操作人和当前操作人name。关键代码为" ( (String) selectMap.get (number) ) .equals (name) "。如果相同, 则说明需要取消选择该号码, 如果不相同, 则说明另一个操作人在页面没有刷新的情况下选择号码, 返回选择失败的操作。

经过以上步骤后, 分别把selectMap和selectList重新保存在内存数据库中, 以更新列表结果。最后向页面返回结果, 把变量res向页面输出。

3.3 当用户不正常退出的处理

客户经理如果选择了若干号码, 但通过不正常的渠道退出, 使得session保持有效状态, 有可能会造成一些异常情况。为了解决用户在不正常退出的情况下session得到及时处理, 笔者做出以下处理。在框架页面添加onbeforeunload事件监听。当不正常退出如关闭浏览器时, 会触发事件调用函数exit () , 把信息通过XMLHttpRequest对象发送到服务器。服务器会将对应的session失效。关键代码为:"session.invalidate () ;"。服务器的监听器NumberListener会监听到session的失效而把已选号码设置为空闲。

结束语

本系统采用了先进的Ajax技术, 与JSP的内存数据库HSQLDB的完美结合, 让用户得到了基于web应用的完美体验。同时, AJAX使得系统在响应时间较短、与客户端交互的网络流量较少的情况下大大提高数据占用的实时性, 从而有效实现了系统用户对数据资源占用的公平性。笔者认为, 此方法适用于对数据占用公平性, 实时性要求较高的行业系统平台, 如, 民航售票、演出门票网络销售等。

参考文献

[1].Garrett J J, Ajax:a new approach to web Applications[M].

[2].Ryan Asleson and Nathaniel T.Schutta.Foundations of Ajax.Apress[M].October, 2005.

[3].王东, 孙彬.基于Ajax的MVC框架的改造分析[J].计算机应用, 2007, (S1)

[4].钟晖云, 徐海水, 廖志坚, 黄常青, 李锦棠.基于Ajax的轻量级身份认证[J].计算机应用研究, 2007, (07) .

[5].米海波, 吴照林.JSP与Ajax在Web系统视图层上的性能对比分析[J].计算机应用, 2007, (S1)

实时交互式虚拟仿真飞机驾驶舱实现篇5

1 概述

实时交互式飞机驾驶舱是开发虚拟飞行仿真软件、机务维护软件等教学软件的基础。它是用户可直接接触和感受到的软件外在表现形式。虚拟驾驶舱环境是人可实时操作的以图形为表现形式的飞机驾驶舱设备集合,也包括虚拟驾驶盘、中央操纵控制台等飞机飞行操作设备。人通过鼠标对虚拟飞机驾驶舱各种设备操作实现对飞机的操控。

2 开发中使用的OpenGL特性

OpenGL是Open Graphics Library的简称。它是一种显卡的图形软件接口。这个接口包括几百个可由用户调用的函数或过程,能实时生成高质量的图像。OpenGL被设计成与硬件无关的独立图形接口,它不提供高级命令来描述三维物体,比如通过简单语句生成汽车等复杂三维物体。用户需要通过点、线、面、纹理等基础语句来达成目标,或借助于第三方辅助函数库完成相关工作。提及OpenGL人们想到的最多还是其三维图形应用。但通过改变图形投影方式OpenGL也能开发性能优良的二维图形程序。本研究采用OpenGL的视窗投影、深度缓冲、基本图形元素的构建和纹理技术实现虚拟二维飞机驾驶舱的构建。

2.1 视窗投影特性

本研究中使用平行投影用于显示不具备深度感的二维平面飞机驾驶舱设备。平行投影指定一个正方形或矩形的修剪空间,这个区域之外的任何物体都不会被绘制,所有尺寸相同的物体无论它们离眼点很远或很近,看起来都一样大。

虚拟的飞机驾驶舱由多块控制面板、仪表等组成。面板中的旋钮、开关、显示屏由二维图形位图或二维矢量文字构成。程序开发中使用下述OpenGL指令组来完成平行透视的定义。

glViewport(0,0,1024,768);定义可见区域在视窗中的位置

glLoadIdentity();复位坐标系

下条语句定义裁剪立方体的坐标(left,right,bottom,top,near,far)

glOrtho(0.0f,1024.0f,0.0f,768,1.0,-1.0);

2.2 纹理技术

OpenGL图形库提供了一种将位图作为纹理贴附于多边形上的技术,没有该技术将无法真实的再现仿真事物。在虚拟驾驶舱仿真中广泛使用二维纹理加载和映射技术。OpenGL图形库实现二维纹理加载需要经历5个步骤:

(1)使用glEnable(GL_TEXTURE_2D)函数开启二维纹理功能。

(2)使用glGenTextures函数生成纹理ID号。

(3)读入位图到内存,按数据存储格式上载到显卡内存。

(4)在使用glBegin和glEnd命令定义多边形前,使用glBindTexture(GL_TEXTURE_2D,TexID)命令将纹理与多边形绑定。

(5)对每个多边形顶点声明顶点纹理坐标,因该坐标定义类似在一块画布上选定要显示的区域,所以可以把开关、旋钮、面板都放在同一个图片的不同位置上,通过定义纹理坐标实现不同物件的显示。在OpenGL中用glTexCoord2f(x,y)声明纹理坐标。

下面是绘制虚拟驾驶舱前仪表面板的OpenGL代码:

2.3 图层概念的实现

实时交互式飞机驾驶舱设备,采用多层次二维绘制的方法。可先绘制无旋钮、开关等附属物体的仪表面板图片作为底层图片。在该图层前的其他图层按正确的遮挡关系绘制需要显示的旋钮、开关等部件。通过平行透视可仿真一个完整的飞机控制设备,乃至更为复杂的虚拟飞机驾驶舱。图1是空中交通禁戒系统控制面板绘制所需的图形元素图片。图2从侧面透视观察到的绘制后的空中交通禁戒控制面板,由图可见各部件遮挡关系,最终效果如图3所示。

开发中使用OpenGL的深度缓冲,此时OpenGL会自动根据物体的Z轴坐标进行绘制,并实现其遮挡效果。

在OpenGL中使用下述函数命令:

glEnable(GL_DEPTH_TEST);开启深度缓冲。

glDisable(GL_DEPTH_TEST);关闭深度缓冲。

使用glOrtho(0.0f,1024.0f,0.0f,768,1.0,-1.0);定义了平行透视视窗的参数。其中前后裁减区域Z轴坐标分别为1.0和-1.0。为方便开发可用宏定义定义如下10个图层,编程时用图层代号代替具体的Z坐标轴数值,提高程序的可读程度。宏定义如下:

3 飞行操作鼠标仿真

实时交互式飞机驾驶舱人机环境中飞行员通过鼠标对飞机的虚拟驾驶舱设备、驾驶盘等操控实现对飞机的控制。程序设计中对飞行员的驾驶舱操控行为用鼠标方式进行模仿,其中既模拟实现了比较复杂的方式控制面板(MCP)、操纵控制台机构、驾驶盘等,也模拟了简单的开关、按压指示灯和旋钮等部件。但其模拟方式基础相同,都是通过对系统鼠标消息的解读,按各自操作特性进行程序开发。

3.1 传递过程

由图4可见程序首先截获操作系统的鼠标移动、按键按压消息,再将该鼠标消息传递给虚拟驾驶舱模块(CPanel),该模块通过调用Update函数逐层传递给集成在其下的各个面板,如方式控制面板、操纵控制台、驾驶盘、火警面板等。这些面板对获取的鼠标位置信息和鼠标按键动作进行判断,确定鼠标动作是否与自身有关,并作出响应动作。

从严格意义上来说,该过程是个异步操作,特别是在CPU占用率高时,不一定能实现每次程序循环中对鼠标消息的更新。DX9.0 SDK中的DirectInput可以实现严格意义上的鼠标实时性,但在使用Windows鼠标消息方法开发的程序运行测试中,5ms的定时器工作环境下,系统表现出良好的实时响应,故采用Windows消息队列获取鼠标消息的方法。

3.2 驾驶舱设备操控行为的分类

飞行员对虚拟飞机驾驶舱设备的操纵包括多种行为:对信号指示灯的按压测试、按压开关的操作、多位开关的拨动、带保护盖开关的操作、旋钮的转动、油门杆的滑动、襟翼手柄的不同卡位设置、驾驶盘的操纵和位置随驾驶盘运动自动驾驶断开等的操控。

首先需要实现鼠标的检测和鼠标按键事件的处理。为提高虚拟座舱的人性化设计,鼠标指示定义为3种形状,分别是“箭头”、“手”、“握”。

“箭头”用于提示鼠标位置,“手”用于提示用户鼠标进入可操控的虚拟旋钮、开关等可交互座舱设备控制区域,“握”用于提示用户该物件已经握住(如对油门杆和驾驶盘的操纵)。

3.3 程序实现

当用户移动鼠标进入可以操作的虚拟开关、旋钮、按压指示灯等座舱设备区域时,程序将鼠标由箭头转换为“手“图标,提示用户进入可控制区域。

设计c InstObject基类,凡是需要鼠标操控的设备(如:开关、旋钮、按压指示灯等)都对该类进行继承,从而可实现鼠标的按键检测和鼠标形状的改变。Check成员函数用来实现鼠标是否在检测的矩形区域中和鼠标是否在该区域内点击的检测。bool c InstObject::Check(float m_x,float m_y,int status,RECT rect)该函数参数m_x,m_y为鼠标位置,status为鼠标按键状态,rect检测矩形区域。程序流程如图5所示。如果用户在该区域点击鼠标将返回真值。对于圆形区域检测使用c InstObject类同名成员函数Check检测,但该函数参数定义将检测矩形区域更换为圆形区域的检测。bool cInstObject::Check(float m_x,float m_y,int status,PartsRoundDefine round)函数中计算鼠标是否在检测区域的圆半径内以确定鼠标是否设备控制区域内,从而决定是否更换鼠标形状。如需更换其他鼠标形状,只需继承cInstObject类,并重写Check函数即可。

其他更复杂的鼠标操作都是在这个程序的基础上添加相应的逻辑代码,实现鼠标操作是图像的变化,实现人机互动,在此不作详述。

4 分层次开发方法

实时交互式虚拟飞机驾驶舱包括多个控制面板和电子显示器仪表组成,如图6所示。开发上可采取逐级分层的分解方法,即把虚拟飞机驾驶舱下划分为多个面板、仪表,再将各面板分解成旋钮、开关、指示灯、数码、文字,最后调用OpenGL函数库相应语句进行图形绘制,同时通过对鼠标的响应实现面板的中的旋钮、开关的操控。这样将一个复杂的飞机驾驶舱分层次简化成为简单基础绘图工作和鼠标响应,从而实现了整个系统的开发。

5 结语

本研究采用OpenGL图像接口进行虚拟飞机驾驶舱的实时绘制,通过对系统鼠标消息的解读,让人参与到该仿真环境中,成为仿真回路的一个环节,实现人对飞机和驾驶舱设备的控制,在此研究基础上成功研制了波音737-800虚拟飞机驾驶舱(图7),并通过增加飞行仿真模块、飞机安全系统逻辑仿真模块实现对多种机载安全报警系统仿真开发,其人机界面良好,对辅助飞行教学起到了积极作用。

参考文献

[1]谢勇,李治庆.GL Studio在飞机虚拟座舱实现中的应用.计算机时代,2007,3:43.

[2]高颖,邵亚楠,郑涛,黄建国.GL Studio在飞行座舱模拟器中的仿真研究.弹箭与制导学报,2008:259.

实时交互篇6

人脸表情含有丰富的情感交流信息, 是情感表达的重要方式之一。近年来, 表情捕捉技术和交互体验技术的深入结合为人机实时交互体验带来了新方向。中国 “四大石窟” 之一的麦积山石窟文化遗产是中华民族传统文化的代表, 其经典作品 “东方微笑” 小沙弥被誉为 “东方蒙娜丽莎”, 具有极高的文化与艺术价值。课题通过提取 “东方微笑” 的脸部表现与特征, 构建基于表情捕捉技术的人脸实时交互体验数字化展示系统, 开拓数字文化保护和传播新途径。北京邮电大学世纪学院为推动国家数字动漫游戏研发与专业人才培养, 先后建设了Motion Capture (运动捕捉) 、 Facial Motion Capture (面部捕捉) 、 3D Scanner (三维扫描) 和Virtual Reality (虚拟现实) 等系统, 2009 年数字媒体实验教学中心被评为 “北京高等学校实验教学示范中心”, 2014 年移动媒体与文化计算实验室被评为 “北京市重点实验室”。

2 表情捕捉技术

早期表情捕捉采用FACS (面部动作编码系统) 和MPEG-4 (多媒体编码标准系统) , 近几年主要有标记点和无标记点两种表情捕捉技术, 课题选用无标记点。它融合了计算机图形学、光学和计算机视觉等技术, 基于光流跟踪特征点位移并驱动网格形变的算法, 以线性和非线性组合方式提取表情运动数据并实现动画重构。其过程如图1 所示。

(1) 人脸信息获取 ( 特征点和网格) 。基于ASM (Active Shape Model) 算法识别特征点 (如黑色眉毛、红色嘴唇等) , 连接特征点生成可准确描述人脸表情变化的网格。 (2) 人脸表情获取。通过人脸分割, 采用光流跟踪特征点位移并辅以粒子滤波稳定其跟踪结果, 将特征点位移驱动网格形变, 基于网格形变跟踪计算实现表情获取。 (3) 人脸表情处理。为更好地描述已获取人脸表情数据, 需提取分析人脸表征的主成分和线成分进行表情处理, 以无缝对接人脸模型运动结构数据。

3 人脸实时交互

人脸实时交互设计流程: (1) 按照课题目标完成表情设定; (2) 根据表情设定进行人脸建模; (3) 基于表情设定捕捉数据并驱动人脸模型完成实时交互体验, 如见图2 所示。

3.1 表情设定

表情设定 (Facial Expressions) 通过面、眼、嘴和额等脸部表情的设定呈现丰富的情感交流信息。心理学家认为, 情感表达=语言 (7%) +声音 (38%) +表情 (55%) , 可见表情在情感表达中的重要地位。根据 “东方微笑” 小沙弥脸部表现与特征进行以下表情设定 (见表1) : Face (憨厚羞涩与稚气喜悦) 似市民聆听于佛的教诲; Eyes (双眼眯细与目光传神) 似世人流连于生命奥妙; Mouth (嘴唇轻启与嘴角微翘) 似众生汲取到人生感悟; Forehead (前额放松与会心舒展) 似众人收获了世间百态。

2.2 人脸建模

人脸建模主要包括原画设计、三维建模和贴图绘制等流程。原画设计采用 “东方微笑” 二维成像并作为建模参考;三维建模包括几何建模 (Geometric Modelers) 、三维扫描 (3D Scanner) 和编码光距离传感 ( Coded Light Range Sensor) 等方法, 采用几何建模法完成。贴图绘制是3D-2D-3D的过程, 即在3D软件分好模型并展开UV (2D纹理坐标) , 并将其导入2D软件绘制与纹理叠加, 最后导入3D软件通过节点赋予模型进行预览, 从而完成人脸建模。然而人脸建模仅获取了几何网格模型, 不具备符合人脸实时交互定义的运动结构信息, 因此需在人脸模型中嵌入运动结构和Morpher信息 (变形器) , 如图3 所示, 实现无缝对接表情捕捉数据。

3.3 实时交互

选用Kinect for Windows SDK作为人脸实时交互检测与识别传感器, 通过其开源的交互开发平台提供数据接口, 并将人脸模型及Morpher信息导入Faceshift完成交互体验环境的设计与搭建。 Kinect利用3 个摄像头 (红外投影机、彩色摄像头和红外摄像头) 可准确捕捉色彩及深度信息, 并确定人脸位置信息, 同时自行产生约20 个节点作为表情捕捉与序列生成工具。实时交互完成步骤如下:

Step1.初始化Kinect开启流数据。

Step2.获取人脸每一帧色彩图像及深度图像数据流并输出。

Step3.设置深度图像数据流范围。

Step4.设置Kinect原始骨骼数据流信息, 符合在深度范围内的跟踪并输出数据。

Step5.为所有数据流添加时间处理器, 记录色彩流、深度流及骨骼流。

Step6.获取新捕捉色彩数据, 以色彩数据帧来预分配以字节为单位的矩列阵。

Step7.添加人脸骨骼跟踪库与特征识别点, 并跟踪记录实时表情数据。

Step8.表情运动数据驱动已嵌入人脸模型完成实时交互, 如图4 所示。

4 结语

结合课题分析了表情设定、人脸建模和实时交互的设计流程及实现, 构建了基于表情捕捉技术的人脸实时交互体验“东方微笑” 数字化展示系统, 传承了中华民族传统文化, 开拓了数字文化保护和传播新途径, 实现了课题预期目标。基于表情捕捉技术的人脸实时交互体验设计在文化传播、医疗分析和影视娱乐等领域具有较好的应用前景。

参考文献

[1]Zhao W, Chellappa R, Phillips P J, et al.Face recognition:a literature survey[J].ACM Computing Surveys, 2003, 35 (4) :399-458.

[2]Bickel B, Botsc M, Angst R, et al.Multi-Scale Capture of Facial Geometry and Motion[J].ACM Transactions on Graphics, 2007, 26 (7) :33-45.

[3]Deng Z, Chiang P, Fox P, et al.Animating Blendshape Faces by Cross-Mapping Mo Cap Data[C].Proceedings of ACM SIGGRAPH Symposium on Interactive 3D Graphics and Games, 2006:43-48.

[4]Sifakis E, Neverov I, Fedkiw R.Automatic Determination of Facial Muscle Activations from Sparse Mo Cap Marker Data[J].ACM Transactions on Graphics, 2005, 24 (3) :417-425.

[5]黄波士, 陈福民, 张宝剑.一种改进算法的光学运动捕捉系统[J].同济大学学报:自然科学版, 2005, 33 (10) :1372-1376.

实时交互篇7

交互式多声道实时处理技术是依托近年来计算机软硬件水平和性能不断提升而得以快速发展的并运用于多媒体领域的一种技术手段。该种技术就其根本而言是交互方式、多声道技术及计算机高效实时处理能力的结合。以交互式多声道实时处理技术为核心的平台则是一系列互相关联的具有对外交互属性, 实时运算能力及多声道输出功能且具有外部兼容性的多个程序的集合。本文研究的交互式多声道实时处理平台以音频处理为首要目标, 其他多媒体表现方式为辅助手段的目的而进行设计, 故主要关注不同程序在音频处理及交互实现方面的思路及各自特点。

在实际运用中以该类平台运行的逻辑步骤及输入输出方式定义, 交互式多声道实时处理平台能对一个或多个输入的信号变量进行捕捉并解析为系统可处理数据格式 (常为midi数据) , 将数据通过预置程式转化为各控制器信号或数据, 作用于预置或实时采录的各种媒体信号流或各预置程式上, 处理结果输出为视频、音频信号及数据等形式, 并支持多声道音频信号输出的实时处理平台。

2. 交互式多声道实时处理平台的特征

由上文交互式多声道实时处理平台的定义不难发现相较于传统音频后期制作平台等具有鲜明的特征。交互式多声道实时处理平台最为重要的特征属性有四:最为核心的实时交互特性;最为基础的实时高处理特性;最有特色的多声道特性;最有广泛代表意义的平台特性。

2.1 实时交互特性

广义的交互 (Interaction) 被定义为“发生于两个及两个以上的参与者之间的相互影响及交流信息的一系列动作及行为”。相对于传统的某一事物对另一事物单传递向的成因果关系的影响, 交互行为双向性的相互影响关系是其最大特点。

新媒体中特指的交互针对两组不同参与对象关系含义有所区别。其一, 针对表演者与观众的对象关系, 交互指使观众得以参与现场表演, 影响表演进程与结果的一种互动形式。其二, 针对预置程式与现场表演的对象关系, 交互指现场即兴表演通过某种途径影响预置效果, 又由预置效果反作用与表演本身的一种循环方式。

由于表演者与观众之间的交互方式较为多样且本文又针对具有交互特性的某一预置平台进行研究, 故下文阐述的交互特性主要是围绕预置程式及现场表演之间的相互关系这一层次相应展开。

交互程序无论其内部设计如何复杂, 对外的双向信息传递是必需的。作为程序与用户或系统外部的沟通连接部件, 输入输出端自然成为交互设计的核心。交互式多声道实时处理平台实时交互特性主要体现在输入输出端与现场表演间的双向影响与交互:程序能通过输入端口实时接收多重信号, 经由实时处理后发送信号影响表演者行为及表演进程从而进行交互。

2.1.1 输入端交互方式

平台输入端口接受一个或多个来源于不同信号源的信号变量并进行解码, 将信号译为系统可理解信号并作用于程式, 由不同变量产生相应变化的结果。

信号来源按类可分为界面操作 (Physical manipulation) 、键盘代码操作 (Input using code) 、鼠标操作 (Mouse manipulation) 、位置及影像感应 (Location and Image) 、压力触发及多点触碰感应 (Haptic interfaces and multi-touch) 、势态辨别 (Gesture) 与声音, 语言识别 (Voice recognition) 七大类。

以Max/MSP为例, 其操作界面内滑竿、按钮及触发物件的使用可归类为界面操作;电脑键盘输入的热键及midi键盘输入等系统可识别代码输入归类为键盘代码操作;鼠标滑动及点击归类鼠标操作;通过摄影机及红外设备等捕捉物体移动及位置输入信号的方式可归为位置及影像感应;经压力传感器, 踏板所得信号归类为压力触发及多点触碰感应;由光学设备捕捉后比对预设姿态而触发感应归为势态识别;而音乐工程中最为常见的话筒输入用以传感及对信号的相应识别归为声音、语言识别感应。

2.1.2 输出端交互方式

在多种输入信号经由系统进行相应处理后将结果以音频、视频、数据等多种形式实时输出给予表演者、操作者及观众时即可认为是输出端交互的开始。输出端的交互特性并不表现在程序本身, 程序输出信号的过程作为程序一次运行的终了也是新一轮交互的起始点。对于输出的信号需要表演者、操作者及观众给予相应反馈或调整, 改变感应器或固有信号的数据启动下一轮程序, 触发下一个循环。

交互程序在这样一个输入信号、输出信号互相影响、不断循环的状态下, 在不断接收并发送信息的过程中将原先预置好的演出效果及结果进行可控制地改变体现其交互的特性。

2.2 实时处理特性

随着计算机软硬件水平的快速发展, 计算机的高运算效率使得交互程序要求的实时处理能力得到很大加强。实时处理系统 (Real-time processing system) 一般指一类要求计算机对采集的多路信息分轻重缓急分别在若干秒, 若干毫秒, 甚至若干微秒内完成处理并做出恰当反应的时间性要求很强的应用系统。

实时处理特性也是交互式多声道实时处理平台最基本也是最核心的特征。本文中定义的实时处理所指的是对于大量输入的多路信号按设计的方案进行快速且准确的即时信息分析、运算、整合等方式的处理再分配至多个输出端进行多信号发送。而在此基本处理功能基础上, 交互多声道实时处理平台最大的特点与优势在于对来此控制方的指令和命令能实时获取和快速反应。

实时处理是程序机动性与灵活性的有效保证。优势具体体现在以下两个方面。

其一, 程序的实时处理功能能对现场获得的信号进行快速采录、改变及再次呈现, 使作品的现场效果及演出真实感得以加强。以最为熟悉的音频处理为例, 音频处理平台, 如Nuendo, Cubase及Sound Forge等, 其常见的样本音高、长度改变和样本反向等手段一般都会经由一段时间的再次运算处理形成一个新的样本进行播放。而具有实时处理能力的程式可以在采录完样本后即时对材料进行多种方式的直接改变且较快地反映在音频输出信号中。基本实现与原样本的前后无缝连接。

其二, 实时处理的优势体现在对现场演出的及时应变能力的很大增强, 对于指令的实时监听与获取可以使控制方对现场情况实时调整数据, 甚至在短时间内改写程式进行快速补救。在演出突然遇到紧急情况, 如控制器失灵、感应装置未及时触发或触发过量时可以切换到备用程式进行过渡, 同时修改程式寻找合适机会切回原程式继续演出以此保证演出的连贯性及安全性。

2.3 多声道特性

多声道技术以1947年杜比实验室与EMI录音室开发Dolby Stereo Film Sound标志着进入立体声时代;1977年杜比实验室研发出多声道环绕系统Dolby Stereo标志着进入多声道环绕时代为起点, 在二者基础上发展而来的将信号以建立好的某种模型分配到成某一规则分布的多个声道的一种音频信号分配技术。

交互多声道实时处理平台的多声道部分是平台音频输出端的核心组成部分。多声道处理部分是在实时处理环境下通过程序的编写将本需要通过音频后期制作平台处理的环绕多声道系统嵌入到平台中使用。

交互多声道实时处理平台多声道输出模块能将实时输入的信号进行处理并立刻使多个直接输入或间接变化的变量同时作用于多声道输出信号, 往往这项实时改变能力后期制作音频处理平台在非预先设置多音轨声像运动位置的情况下是不容易达到的。同时, 多声道实时设置具有灵活性。与音频处理平台同样能预设轨道路径, 也可实时记录路径及任意设置互相关联修改后即立即生效。为适应不同声学要求和扩应环境的场地需要, 预先为立体声、四声道、5.1、7.1、八声道设置相应模板提高系统面对不同声学环境时的兼容性。

在Max/MSP软件中, 不同机构及组织根据对多声道方式的理解和侧重方向建立了多套多声道程式, 有Max/MSP软件自带的Spatialization, CNMAT设计的Panhandler, 以及ICST的Ambisonic等, 其中以Ambisonic程序功能最为全面。Ambisonic 2.2提供Furse-Malham, Normalized 3D及Semi-Normalized 3D三种多声道编码解码方法为核心分别是全经验、全理论及半经验理论为指导思路的三套多声道处理方式。同时, 具有声相运行轨迹设置及不同声道模式切换等功能, 在Max/MSP设计的程序中可以单独作为音频输出端口使用, 与其他程式的兼容程度很高。

2.4 平台特征

交互多声道实时处理平台与交互多声道实时处理程序的区别之处在于平台需要在程序的基础上体现其对于不同情况及需要的适应能力。平台并非仅为一次演出或某一作品而单独设计, 而是应该能应用于多个作品及演出之中。个人可以根据自身对于交互程式、预置音频回放程式、实时运算程式、效果器程式、多声道输出及应急启动等方面的需要, 量身定制个人操作平台为创作、制作及演出服务。所以一个交互多声道实时处理平台在应用上必须具有适用于多个情况的广泛性特征。

为具有广泛的平台特征交互多声道实时处理平台的各组件应具有模块化的特点。模块化程序能有效地解决由于程序的过度复杂而产生平台构建上的混乱。各模块的明确作用能使平台搭建的思路脉络清晰, 对于初学者或非专业编程人员使用已有的专业机构编写的模块搭建个人操作平台可以有效避免编程上的逻辑漏洞, 对于较为熟悉编程平台的编写者搭建自己的各个模块可以更好地适应自身的需求, 加强整合的效率。

可见相较于交互式多声道实时处理平台其他三项特性而言, 平台性是建立在前三者基础之上较高一层的特征属性, 将具有前三者能力的各个环节的程序优化整合至一个总体之中, 发挥各个环节功用的过程即为平台构建过程。构建一个能被广泛应用的平台是程序设计者的最高目标。

摘要：交互式多声道实时处理平台是随着近年来交互多媒体技术的兴起与音乐音响科学的发展而诞生的运用于音乐创作, 特别是电子音乐创作及现场表演的一种实时处理程序, 该技术在未来作品创作与演出中具有应用的广泛可能, 本文对不同交互式实时处理平台的基本特征进行梳理, 意图通过本文涉及的内容, 为将此技术运用于音乐创作与表演领域的艺术工作者提供些许经验。

关键词：交互式,多声道,实时处理,平台,Max/MSP

参考文献

[1][美]Josbia Noble.Programming:Interactivity, 2006:25-32.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【实时交互】相关文章：

实时交互行为三维动画的设计技术研究12-15

实时图像05-10

实时运营05-13

实时评估05-29

实时性能06-30

实时测量07-14

实时业务07-20