MPEG(Moving Picture Experts Group)专家组继成功定义了MPEG—1和MPEG—2之后,于1993年7月开始制订全新的MPEG-4标准,并分别于1999年初和2000年初正式公布了版本1和版本2。到2001年10月,MPEG一4已定义了19个视像类(Visual PRofile),其中新定义的简单演播室类(Simple Studio Profile)和核心演播室类(Core studio Profile)使MPEG-4对MPEG-2类别保留了一些形式上的兼容,其码率可高达2Gbps。随着MPEG-4标准的不断扩展,它不但能支持码率低于64kbps的多媒体通信,也能支持广播级的视频应用。MPEG-4标准将广泛运用于数字电视、动态图像、万维网(www)、实时多媒体监控、基于内容存储和检索的多媒体系统、互联网上的视频流与可视游戏、基于面部表情模拟的虚拟会议、DVD上的交互多媒体应用、基于计算机网络的可视化合作实验室场景应用、演播电视等,它将推动电信、计算机、广播电视三大网络的最终融合,从而成为今后一段时间压缩标准的主流。
在这一功能集的底层是VLBV(Very Low Bit Rate Video)核心。它为码率在5一64kbps范围内的视频操作与应用提供算法与工具,支持较低的空间分辨率(低于352 X 288像素)和较低的帧频(低于15Hz)。VLBV核心支持的专用功能包括:矩形图像序列的有效编码、多媒体数据库的搜索和随机存取。
MPEG—4的HBV(High Bit Rate Video)同样支持上述功能,其码率范围在64kbps—10Mbbps之间,它与VLBL核心采用相同或相似的算法,但它支持更高的空间与时间分辨率,允许传输和存储适用于演播室的高质量视频信号,其输入可以是ITU-R Rec.601的标准信号,典型应用为数字电视广播与交互式检索。MPEG-4最终支持的码率将高于MPEG—2。 MPEG-4 提出了基于内容(Content-based)的存取概念,使用户可与场景进行交互。它对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,称为AV对象(AVO:Audio Video Object)。AV对象可以组成AV场景(AVOs:Audio Video Object in a scene)。因此,MPEG—4标准的基本内容就是高效率地编码、组织、存储、传输AV对象。
DMIF即多媒体传送整体框架,它主要解决交互网络中、广播环境下以及磁盘应用中多媒体应用的操作问题。通过DMIF,MPEG-4可以建立具有特殊品质服务(QoS:Quality of Service)的信道和面向每个基本流的带宽。
2、数据平面
MPEG-4中的数据平面可以分为两部分:传输关系部分和媒体关系部分。为了使基本流和AV对象在同一场景中出现,MPEG-4引用了对象描述(OD)和流图桌面(SMT)的概念。OD传输与特殊AV对象相关的基本流的信息流图。桌面把每一个流与一个CAT(Channel Association Tag)相连,CAT可实现该流的顺利传输。
MPEG-4视频编码器的基本结构包括形状编码(对于任意形状的VOS)、运动补偿和基于DCT的纹理编码(采用标准的 8 X 8 DCT或根据形状的自适应DCT)。具体的编码方法为:首先对输入的原图像序列进行场景分析和对象分割,以划分不同的VOP,得到各个VOP的形状和位置信息,它可以用alpha平面来表示。发送端只需传送alpha平面,接收端就可以确定VOP的形状和位置。alpha平面所需的比特数较多,需要进行压缩编码。显然,只要对VOP的轮廓进行编码和传送,接收端就可以恢复alpha平面,轮廓信息在轮廓编码器中进行编码。提取的形状和位置信息又用来控制VOP的运动和纹理编码。对运动和纹理信息编码仍然采用经典的类似MPEG-1/2标准的运动预测/补偿法。输入第N帧的VOP与帧存储器中存储的N—1帧的VOP进行比较,找到运动矢量,然后对两帧VOP的差值进行量化、编码。对不同对象的运动和纹理信息的编码可因地制宜地采用不同的方祛,以提高编码效率。编码后得到的纹理信息,与运动编码器和形状编码器输出的运动信息和形状信息复接形成该VOP的比特流层。不同视频对象的VOP序列分别进行编码,形成各自的比特流层,经复接后在信道上传送。传送的顺序依次为形状信息、运动信息和纹理信息。接收端的解码过程是编码过程的逆操作。
MPEG—4定义的简单演播室类(Simple Studio Profile)能够为视频编辑提供高质量的信号,它仅有1帧,采用形状编码,支持多个alpha通道,码率可高达2Gbps。核心演播室类(Core Studio Profile)在简单演播室类的基础上增加了P帧,使编码更高效也更复杂。这两个新扩展的视像类使MPEG-4用于高质量的视频编辑成为可能。