mpeg-4允许用户和呈现内容进行交互。这种交互主要分为两类:客户端本地交互和客户—服务器端交互。客户端本地交互包括内容的操纵,特别是一个场景描述节点属性的改变,如对象位置的改变、使其可见或消失、改变一个合成文本节点的字体大小等,都能够通过激发用户事件而实现。一个用户事件可以是鼠标的点击或键盘命令,以更新场景描述。服务器端交互包含发生在传送终端由用户动作引发的对内容的操纵,它需要一个回传通道。
mpeg-4本地交互的多媒体系统的关键问题是交互式多媒体场景的描述、对象描述符的概念,以及场景描述和基本码流的关联。
一 交互式的场景描述
mpeg-4最大的特点是基于对象,即将媒体元素作为对象来进行单独编码。为了在终端重新构建一个多媒体场景,只传输这些原始的视听数据是不够的,需要额外的信息在接收端来组合这些视听数据,并创建和显示一个有意义的多媒体场景。而场景描述就是用来说明如何根据av对象的时间和空间属性有效地将它们组织起来的,是实现交互性的重中之重。
1. 场景描述的概念
场景描述作为mpeg-4系统规范的一部分,规定了场景中av对象的组织方式,描述了用于传输时空位置的信息格式,这样的信息足以将各个解码重构后的av对象组合和重现。为什么要将场景描述信息与av对象分开呢?这是因为场景描述信息是场景结构的属性而不是单个av对象的属性,因此,它也要单独编码并用单独的流和编码对象一起传输。这对于比特流的编辑和基于对象的mpeg-4的功能实现,以及终端用户对场景修改的参与,即交互性,都是非常重要的。
场景描述的表示称为二进制格式场景(binary format for scenes,bifs),其是基于vrml的,表示预定义的视听对象和行为及时空关系的集合。bifs的目的就是携带场景描述信息,它首先是一个协议:规定了如何重现mpeg-4对象的场景图,实现对象的动画和交互行为,以及对这些元素的发送加以时序化和同步化;其次,它定义了事件处理、对象组合的节点和运行规则;另外,它还是一种有效的对数据进行重现和发送的压缩工具。
2. 场景描述的特征
a.场景结构
一个场景描述带有一个可以用图表示的层次结构。图节点构成了视听对象,如图1所示。
场景描述采用如图1所示的树状结构,是为了便于增加场景的编辑和交互功能。树的每个叶节点都是一个基本节点,它对应于一个基本流,任何一个子节点(叶子)的父节点都是复合节点,复合节点主要用于场景的编辑和组合。在实际应用中,这种结构并不是静态结构而是动态结构,即用户能够实施添加、删除和改变节点等操作。
b.节点和域
bifs场景描述由节点集合组成,这些节点用来描述场景结构,因此mpeg-4的场景图也可以称为节点图。场景中的一个视听对象用一个或者多个节点描述,它们可能被集合在一起(使用组节点)。mpeg-4主要定义了以下节点类型:
(1)分组节点:创建场景结构。
(2)子节点:组节点的子节点,用来表示场景中的多媒体对象。
(3)可捆绑子节点:一种特殊类型子节点,用来表示一组节点类型,这些节点类型一次只有一个有效,例如3d场景的视点节点(viewpoint),可以包含多种视点,但一次只有一个视点有效。
(4)内插器节点:子节点的另一种类型,用来表示进行帧动画制作的插入数据。
(5)传感器节点:检测用户的动作和环境的变换以创作交互的场景。
bifs由一个分层树状的节点集组成,每个节点用来表示变换场景中的一个视听对象;节点又由表示节点特性的一组域组成。
节点域有时表示一个值,如球节点的半径域;