H264:高度压缩数字视频编解码器标准-中文百科频道

组成部分

H264标准各主要部分有Access Unit delimiter（访问单元分割符），SEI（附加增强信息），primary coded picture（基本图像编码），Redundant Coded Picture（冗馀图像编码）。还有Instantaneous Decoding Refresh（IDR，即时解码刷新）、Hypothetical Reference Decoder（HRD，假想参考解码）、Hypothetical Stream Scheduler（HSS，假想码流调度器）。

技术

H.264和以前的标准一样，也是DPCM加变换编码的混合编码模式。但它采用“回归基本”的简洁设计，不用众多的选项，获得比H.263++好得多的压缩性能；加强了对各种信道的适应能力，采用“网络友好”的结构和语法，有利于对误码和丢包的处理；应用目标范围较宽，以满足不同速率、不同解析度以及不同传输（存储）场合的需求。

技术上，它集中了以往标准的优点，并吸收了标准制定中积累的经验。与H.263v2(H.263+)或MPEG-4简单类(Simple Profile)相比，H.264在使用与上述编码方法类似的最佳编码器时，在大多数码率下最多可节省50%的码率。H.264在所有码率下都能持续提供较高的视频质量。

H.264能工作在低延时模式以适应实时通信的应用(如视频会议)，同时又能很好地工作在没有延时限制的应用，如视频存储和以服务器为基础的视频流式应用。H.264提供包传输网中处理包丢失所需的工具，以及在易误码的无线网中处理比特误码的工具。

在系统层面上，H.264提出了一个新的概念，在视频编码层(Video Coding Layer,VCL)和网络提取层(Network Abstraction Layer,NAL)之间进行概念性分割，前者是视频内容的核心压缩内容之表述，后者是通过特定类型网络进行递送的表述，这样的结构便于信息的封装和对信息进行更好的优先级控制。

编码

1．帧内预测编码

帧内编码用来缩减图像的空间冗馀。为了提高H.264帧内编码的效率，在给定帧中充分利用相邻宏块的空间相关性，相邻的宏块通常含有相似的属性。因此，在对一给定宏块编码时，首先可以根据周围的宏块预测（典型的是根据左上角宏块、左边宏块和上面宏块，因为此宏块已经被编码处理），然后对预测值与实际值的差值进行编码，这样，相对于直接对该帧编码而言，可以大大减小码率。

H.264提供9种模式进行4×4像素宏块预测，包括1种直流预测和8种方向预测。在图中，相邻块的A到I共9个像素均已经被编码，可以被用以预测，如果我们选择模式4，那么，a、b、c、d4个像素被预测为与E相等的值，e、f、g、h4个像素被预测为与F相等的值，对于图像中含有很少空间信息的平坦区，H.264也支持16×16的帧内编码。

2．帧间预测编码

帧间预测编码利用连续帧中的时间冗馀来进行运动估计和补偿。H.264的运动补偿支持以往的视频编码标准中的大部分关键特性，而且灵活地添加了更多的功能，除了支持P帧、B帧外，H.264还支持一种新的流间传送帧——SP帧。码流中包含SP帧后，能在有类似内容但有不同码率的码流之间快速切换，同时支持随机接入和快速回放模式SP-帧示意图H.264的运动估计有以下4个特性。

(1)不同大小和形状的宏块分割

对每一个16×16像素宏块的运动补偿可以采用不同的大小和形状，H.264支持7种模式，如图4所示。小块模式的运动补偿为运动详细信息的处理提高了性能，减少了方块效应，提高了图像的质量。

(2)高精度的亚像素运动补偿

在H.263中采用的是半像素精度的运动估计，而在H.264中可以采用1/4或者1/8像素精度的运动估值。在要求相同精度的情况下，H.264使用1/4或者1/8像素精度的运动估计后的残差要比H.263采用半像素精度运动估计后的残差来得小。这样在相同精度下，H.264在帧间编码中所需的码率更小。

(3)多帧预测

H.264提供可选的多帧预测功能，在帧间编码时，可选5个不同的参考帧，提供了更好的纠错性能，这样更可以改善视频图像质量。这一特性主要应用于以下场合：周期性的运动、平移运动、在两个不同的场景之间来回变换摄像机的镜头。

(4)去块滤波器

H.264定义了自适应去除块效应的滤波器，这可以处理预测环路中的水平和垂直块边缘，大大减少了方块效应。

3．整数变换

在变换方面，H.264使用了基于4×4像素块的类似于DCT的变换，但使用的是以整数为基础的空间变换，不存在反变换因为取舍而存在误差的问题，变换矩阵如图5所示。与浮点运算相比，整数DCT变换会引起一些额外的误差，但因为DCT变换后的量化也存在量化误差，与之相比，整数DCT变换引起的量化误差影响并不大。此外，整数DCT变换还具有减少运算量和复杂度，有利于向定点DSP移植的优点。

4．量化

H.264中可选52种不同的量化步长，这与H.263中有31个量化步长很相似，但是在H.264中，步长是以12.5%的复合率递进的，而不是一个固定常数。

在H.264中，变换系数的读出方式也有两种：之字形(Zigzag)扫描和双扫描，如图6所示。大多数情况下使用简单的之字形扫描；双扫描仅用于使用较小量化级的块内，有助于提高编码效率。

5．熵编码

视频编码处理的最后一步就是熵编码，在H.264中采用了两种不同的熵编码方法：通用可变长编码（UVLC）和基于文本的自适应二进制算术编码（CABAC）。

在H.263等标准中，根据要编码的数据类型如变换系数、运动矢量等，采用不同的VLC码表。H.264中的UVLC码表提供了一个简单的方法，不管符号表述什么类型的数据，都使用统一变字长编码表。其优点是简单；缺点是单一的码表是从概率统计分布模型得出的，没有考虑编码符号间的相关性，在中高码率时效果不是很好。

因此，H.264中还提供了可选的CABAC方法。算术编码使编码和解码两边都能使用所有句法元素(变换系数、运动矢量)的概率模型。为了提高算术编码的效率，通过内容建模的过程，使基本概率模型能适应随视频帧而改变的统计特性。内容建模提供了编码符号的条件概率估计，利用合适的内容模型，存在于符号间的相关性可以通过选择要编码符号邻近的已编码符号的相应概率模型来去除，不同的句法元素通常保持不同的模型。

解码

由于蓝光格式的统一，使得市面上绝大多数的高清视频均是采用H.264的格式编码，它又分为四个最主要步骤，分别是流处理，逆变换，动态补偿，去方块滤波，这四步也是资源消耗的主要四个部分。

H.264解码的四个步骤中的第一步“CAVLC/CABAC解码”是最为消耗运算资源，这方面远高于其他三步（简单的说，CAVLC/CABAC是H.264编码规范中两种不同的算法，都是为了提高压缩比，其中CABAC比CAVLC压缩率更高，但解码时自然也要求更高）。

如果所有四个步骤全采用处理器纯软件解码运算，当碰上HDDVD版本的高码率H.264视频，处理器的负载会非常巨大，即使能流畅播放高清视频，也会因为处理器压力过重而影响其他同时开启的应用程序的执行效率。

如果让处理器解码“CAVLC/CABAC解码”和“反向转换（Inverse Transformation）”两部分，由显示核心承担“运动补偿”和“解码去块”功能，则可以在一定程度上降低处理器的压力。不过对于使用单核处理器或低端双核处理器的用户来说，这依然无法很好的应付这类视频；其次，碰上编码率更高的视频，依然会给处理器造成很大的处理难度，导致视频播放的不确定性，可能消费者会遇到某些视频可以流畅播放，但是有些视频却丢帧的情况。

冗馀处理

H.264与以前的国际标准如H.263和MPEG-4相比，为达到高效的压缩，充分利用了各种冗馀，统计冗馀和视觉生理冗馀。

1．统计冗馀：频谱冗馀（指色彩分量之间的相关性），空间冗馀，还有时间冗馀。这是视频压缩区别于静止图像的根本点，视频压缩主要利用时间冗馀来实现大的压缩比。

2．视觉生理冗馀

视觉生理冗馀是由于人类的视觉系统（HVS）特性造成的，比如人眼对色彩分量的高频分量没有对亮度分量的高频分量敏感，对图像高频（即细节）处的噪声不敏感等。

针对这些冗馀，视频压缩算法采用了不同的方法加以利用，但主要的考虑是集中在空间冗馀和时间冗馀上。H.264也采用混合(hybrid)结构，即对空间冗馀和时间冗馀分别进行处理。对空间冗馀，标准通过变换及量化达到消除的目的，这样编码的帧叫I帧；而时间冗馀则是通过帧间预测，即运动估计和补偿来去除，这样编码的帧叫P帧或B帧。

与以前标准不同的是，H.264在编码I帧时，采用了帧内预测，然后对预测误差进行编码。这样就充分利用了空间相关性，提高了编码效率。H.264帧内预测以16x16的宏块为基本单位。首先，编码器将与当前宏块同一帧的邻近像素作为参考，产生对当前宏块的预测值，然后对预测残差进行变换与量化，再对变换与量化后的结果做熵编码。

熵编码的结果就可以形成码流了。由于在解码器端能够得到的参考数据都是经过反变换与反量化后的重建图像，因此为了使编解码一致，编码器端用于预测的参考数据就和解码器端一样，也是经过反变换与反量化后的重建图像。

错误恢复

错误恢复的工具随着视频压缩编码技术的提高在不断改进。旧的标准(H.261、H263、MPEG-2的第二部分)中，使用片和宏块组的划分、帧内编码宏块、帧内编码片和帧内编码图像来防止错误的扩散。之后改进的标准(H.263+、MPEG-4)中，使用多帧参考和数据分割技术来恢复错误。

H.264标准在以前的基础上提出了三种关键技术：(1)参数集合，(2)灵活的宏块次序(FMO)，(3)冗馀片(RS)来进行错误的恢复。

帧内编码

H.264中帧内编码的技术和以前标准一样，值得注意的是：

(1)H.264中的帧内预测编码宏块的参考宏块可以是帧间编码宏块，帧内预测宏块并不像H.263中的帧内编码一样，而采用预测的帧内编码比非预测的帧内编码有更好的编码效率，但减少了帧内编码的重同步性能，可以通过设置限制帧内预测标记来恢复这一性能。

(2)只包含帧内宏块的片有两种，一种是帧内片(Islice)，一种是立即刷新片(IDRslice)，立即刷新片必存在于立即刷新图像(IDRpicture)中。与短期参考图像相比，立即刷新图像有更强壮的重同步性能。

在无线IP网络环境下，为了提高帧内图像的重同步性能，要采用率失真优化编码和设置限制帧内预测标记。

图像分割

H.264支持一幅图像划分成片，片中宏块的数目是任意的。在非FMO模式下，片中的宏块次序是同光栅扫描顺序，FMO模式下比较特殊。片的划分可以适配不同的MTU尺寸，也可以用来交织分组打包。

参考图像选择

参考图像数据选择，不论是基于宏块、基于片，还是基于帧，都是错误恢复的有效工具。对于有反馈的系统，编码器获得传输中丢失图像区域的信息后，参考图像可以选择解码已经正确接收的图像对应的原图像区域作参考。在没有反馈的系统中，将会使用冗馀的编码来增加错误恢复性能。

数据划分

通常情况下，一个宏块的数据是存放在一起而组成片的，数据划分使得一个片中的宏块数据重新组合，把宏块语义相关的数据组成一个划分，由划分来组装片。

在H.264中有三种不同的数据划分。

头信息划分：包含片中宏块的类型，量化参数和运动矢量，是片中最重要的信息。

帧内信息划分：包含帧内CBPs和帧内系数，帧内信息可以阻止错误的蔓延。

帧间信息划分：包含帧间CBPs和帧间系数，通常比前两个划分要大得多。

帧内信息划分结合头信息解出帧内宏块，帧间信息划分结合头信息解出帧间宏块。帧间信息划分的重要性最低，对重同步没有贡献。当使用数据划分时，片中的数据根据其类型被保存到不同的缓存，同时片的大小也要调整，使得片中最大的划分小于MTU尺寸。

解码端若获得所有的划分，就可以完整重构片；解码端若发现帧内信息或帧间信息划分丢失，可用的头信息仍然有很好的错误恢复性能。这是因为宏块类型和宏块的运动矢量含有宏块的基本特征。

使用参数集

序列的参数集(SPS)包括了一个图像序列的所有信息，图像的参数集(PPS)包括了一个图像所有片的信息。多个不同的序列和图像参数集经排序存放在解码器。编码器参考序列参数集设置图像参数集，依据每一个已编码片的片头的存储地址选择合适的图像参数集来使用。对序列的参数和图像的参数进行重点保护才能很好地增强H.264错误恢复性能。

在差错信道中使用参数集的关键是保证参数集及时、可靠地到达解码端。例如，在实时信道中，编码器用可靠控制协议及早将他们以带外传输的方式发送，使控制协议能够在引用新参数的第一个片到达之前把它们发给解码器；另外一个办法就是使用应用层保护，重发多个备份文件，确保至少有一个备份数据到达解码端；第三个办法就是在编解码器的硬件中固化参数集设置。

宏块次序(FMO)

灵活的宏块次序是H.264的一大特色，通过设置宏块次序映射表(MBAmap)来任意地指配宏块到不同的片组，FMO模式打乱了原宏块顺序，降低了编码效率，增加了时延，但增强了抗误码性能。FMO模式划分图像的模式各种各样，重要的有棋盘模式、矩形模式等。当然FMO模式也可以使一帧中的宏块顺序分割，使得分割后的片的大小小于无线网络的MTU尺寸。

经过FMO模式分割后的图像数据分开进行传输，以棋盘模式为例，当一个片组的数据丢失时可用另一个片组的数据(包含丢失宏块的相邻宏块信息)进行错误掩盖。实验数据显示，当丢失率为(视频会议应用时)10%时，经错误掩盖后的图像仍然有很高的质量。

冗馀片方法

前边提到了当使用无反馈的系统时，就不能使用参考帧选择的方法来进行错误恢复，应该在编码时增加冗馀的片来增强抗误码性能。要注意的是这些冗馀片的编码参数与非冗馀片的编码参数不同，也就是用一个模糊的冗馀片附加在一个清晰的片之后。在解码时先解清晰的片，如果其可用就丢弃冗馀片；否则使用冗馀模糊片来重构图像。

优势

1．低码率（Low Bit Rate）：和MPEG2和MPEG4ASP等压缩技术相比，在同等图像质量下，采用H.264技术压缩后的数据量只有MPEG2的1/8，MPEG4的1/3。

2．高质量的图象：H.264能提供连续、流畅的高质量图象（DVD质量）。

3．容错能力强：H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。

4．网络适应性强：H.264提供了网络抽象层（Network Abstraction Layer），使得H.264的文件能容易地在不同网络上传输（例如互联网，CDMA，GPRS，WCDMA，CDMA2000等）。

H.264最大的优势是具有很高的数据压缩比率，在同等图像质量的条件下，H.264的压缩比是MPEG-2的2倍以上，是MPEG-4的1.5～2倍。举个例子，原始文件的大小如果为88GB，采用MPEG-2压缩标准压缩后变成3.5GB，压缩比为25∶1，而采用H.264压缩标准压缩后变为879MB，从88GB到879MB，H.264的压缩比达到惊人的102∶1。低码率（Low Bit Rate）对H.264的高的压缩比起到了重要的作用，和MPEG-2和MPEG-4ASP等压缩技术相比，H.264压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是，H.264在具有高压缩比的同时还拥有高质量流畅的图像，正因为如此，经过H.264压缩的视频数据，在网络传输过程中所需要的带宽更少，也更加经济。