MPEG-2:MPEG頒布的活動圖像及聲音編碼标準-中文百科頻道

簡介

MPEG-2音頻是在1994年11月為數字電視而提出來的，其發展分為三個階段：

第一階段是對MPEG-1增加了低采樣頻率，有16KHZ，22.05KHZ，以及24KHZ。

第二階段是對MPEG-1實施了向後兼容的多聲道擴展，将其稱為MPEG-2BC。支持單聲道，雙聲道，多聲道等編碼。并附加“低頻加重”擴展聲道，從而達到五聲道編碼。

第三階段是向後不兼容，将其稱為MPEG-2AAC先進音頻編碼。采樣頻率可以低至8KHZ；而高至96KHZ範圍内的1-48個通道可選的高音質音頻編碼。

技術介紹

MPEG-2制定于1994年，設計目标是高級工業标準的圖象質量以及更高的傳輸率。MPEG-2所能提供的傳輸率在3-10Mbits/sec間，其在NTSC制式下的分辨率可達720X486，MPEG-2也可提供并能夠提供廣播級的視像和CD級的音質。

MPEG-2的音頻編碼可提供左右中及兩個環繞聲道,以及一個加重低音聲道，和多達7個伴音聲道（DVD可有8種語言配音的原因）。由于MPEG-2在設計時的巧妙處理，使得大多數MPEG-2解碼器也可播放MPEG-1格式的數據，如VCD。

同時，由于MPEG-2的出色性能表現，已能适用于HDTV，使得原打算為HDTV設計的MPEG-3，還沒出世就被抛棄了。（MPEG-3要求傳輸速率在20Mbits/sec-40Mbits/sec間，但這将使畫面有輕度扭曲）。除了作為DVD的指定标準外，MPEG-2還可用于為廣播，有線電視網，電纜網絡以及衛星直播(DirectBroadcastSatellite)提供廣播級的數字視頻。

特點

MPEG-2的另一特點是，其可提供一個較廣的範圍改變壓縮比，以适應不同畫面質量，存儲容量，以及帶寬的要求。

對于最終用戶來說，由于現存電視機分辨率限制，MPEG-2所帶來的高清晰度畫面質量（如DVD畫面）在電視上效果并不明顯，倒是其音頻特性（如加重低音，多伴音聲道等）更引人注目。

MPEG-2的編碼圖像被分為三類，分别稱為I幀，P幀和B幀。

1、I幀圖像，或稱幀内（Intra）圖像，參考圖像，相當于一個固定圖像，且獨立于其它的圖像類型。每個圖像組群由此類型的圖像開始。采用幀内壓縮編碼技術減少空間冗餘，不參照其它圖像。

2、P幀圖像，或稱預測（Predicted）圖像，通過參照前面靠近它的I或P圖像預測得到。P圖像減少了空間和時間冗餘信息，相比I圖像可以有更大的壓縮碼率。

3、B幀圖像，或稱雙向預測圖像，根據臨近的前幾幀、本幀、後幾幀的I或者P圖像預測得到，僅記錄本幀與前後幀的不同之處。相比I和P圖像可以有更大的壓縮碼率。

層次

MPEG-2的編碼碼流分為六個層次。為更好地表示編碼數據，MPEG-2用句法規定了一個層次性結構。它分為六層，自上到下分别是：圖像序列層、圖像組（GOP)、圖像、宏塊條、宏塊、塊。

标準

基本介紹

MPEG-2标準目前分為9個部分，統稱為ISO/IEC13818國際标準。各部分的内容描述如下：

一部分－ISO/IEC13818-1，System：系統，描述多個視頻，音頻和數據基本碼流合成傳輸碼流和節目碼流的方式。

二部分－ISO/IEC13818-2，Video：視頻，描述視頻編碼方法。

三部分－ISO/IEC13818-3，Audio：音頻，描述與MPEG-1音頻标準反向兼容的音頻編碼方法。

四部分－ISO/IEC13818-4，Compliance：符合測試，描述測試一個編碼碼流是否符合MPEG-2碼流的方法。

五部分－ISO/IEC13818-5，Software：軟件，描述了MPEG-2标準的第一、二、三部分的軟件實現方法。

六部分－ISO/IEC13818-6，DSM-CC：數字存儲媒體-命令與控制，描述交互式多媒體網絡中服務器與用戶間的會話信令集。

上六個部分均已獲得通過，成為正式的國際标準，并在數字電視等領域中得到了廣泛的實際應用。此外，MPEG-2标準還有三個部分：第七部分規定不與MPEG-1音頻反向兼容的多通道音頻編碼；第八部分現已停止；第九部分規定了傳送碼流的實時接口。

1990年成立的ATM視頻編碼專家組與MPEG在ISO/IEC13818标準的第一和第二兩個部分進行了合作，因此上述兩個部分也成為ITU-T的标準，分别為：ITU-TH.222.0和ITU-TH.262視頻。

具體解釋

下面我們主要讨論一下MPEG視頻編碼系統，即ISO/IEC13818-2部分。MPEG-2視頻編碼MPEG-2視頻編碼标準是一個分等級的系列，按編碼圖像的分辨率分成四個“級(Levels)”；按所使用的編碼工具的集合分成五個“類（Profiles)”。“級”與“類”的若幹組合構成MPEG-2視頻編碼标準在某種特定應用下的子集：對某一輸入格式的圖像，采用特定集合的壓縮編碼工具，産生規定速率範圍内的編碼碼流。在20種可能的組合中，目前有11種（下表中标識“√”的項）是已獲通過的，稱為MPEG-2适用點。

編碼碼流

綜述

從上至下依次為：視頻序列層（Sequence)，圖像組層（GOP：GroupofPicture)，圖像層（Picture)，像條層（Slice)，宏塊層（MacroBlock)和像塊層（Block)。從圖1中可以看到，除宏塊層和像塊層外，上面四層中都有相應的起始碼（SC：StartCode)，可用于因誤碼或其它原因收發兩端失步時，解碼器重新捕捉同步。因此一次失步将至少丢失一個像條的數據。

具體介紹

序列指構成某路節目的圖像序列，序列起始碼後的序列頭中包含了圖像尺寸，寬高比，圖像速率等信息。序列擴展中包含了一些附加數據。為保證能随時進入圖像序列，序列頭是重複發送的。

序列層下是圖像組層，一個圖像組由相互間有預測和生成關系的一組I、P、B圖像構成，但頭一幀圖像總是I幀。GOP頭中包含了時間信息。

圖像組層下是圖像層，分為I、P、B三類。PIC頭中包含了圖像編碼的類型和時間參考信息。

圖像層下是像條層，一個像條包括一定數量的宏塊，其順序與掃描順序一緻。MP@ML中一個像條必須在同一宏塊行内。

像條層下是宏塊層。MPEG-2中定義了三種宏塊結構：4:2:0宏塊4:2:2宏塊和4:4:4宏塊，分别代表構成一個宏塊的亮度像塊和色差像塊的數量關系。

4:2:0宏塊中包含四個亮度像塊，一個Cb色差像塊和一個Cr色差像塊；4:2:2宏塊中包含四個亮度像塊，二個Cb色差像塊和二個Cr色差像塊；4:4:4宏塊中包含四個亮度像塊，四個Cb色差像塊和四個Cr色差像塊。這三種宏塊結構實際上對應于三種亮度和色度的抽樣方式。

編碼方法

在進行視頻編碼前，分量信号R、G、B被變換為亮度信号Y和色差信号Cb、Cr的形式。4:2:2格式中亮度信号的抽樣頻率為13.5MHz，兩個色差信号的抽樣頻率均為6.75MHz，這樣空間的抽樣結構中亮度信号為每幀720x576樣值，Cb，Cr都為360x576樣值，即每行中每隔一個像素對色差信号抽一次樣，如圖3所示，○代表Y信号的抽樣點，×代表Cb，Cr信号的抽樣點。

4:4:4格式中，亮度和色差信号的抽樣頻率都是13.5MHz，因此空間的抽樣結構中亮度和色差信号都為每幀720x576樣值。而4:2:0格式中，亮度信号的抽樣頻率13.5MHz，空間的抽樣結構中亮度信号為每幀720x576樣值，Cb，Cr都為360x288樣值，即每隔一行對兩個色差信号抽一次樣，每抽樣行中每隔一個像素對兩個色差信号抽一次樣。

通過上述分析不難計算出，4:2:0格式中，每四個Y信号的像塊空間内的Cb，Cr樣值分别構成一個Cb，Cr像塊；4:2:2格式中，每四個Y信号的像塊空間内的Cb，Cr樣值分别構成兩個Cb，Cr像塊；而4:4:4格式中，每四個Y信号的像塊空間内的Cb，Cr樣值分别構成四個Cb，Cr像塊。相應的宏塊結構正是以此基礎構成的。

宏塊層之下是像塊層，像塊是MPEG-2碼流的最底層，是DCT變換的基本單元。MP@ML中一個像塊由8x8個抽樣值構成，同一像塊内的抽樣值必須全部是Y信号樣值，或全部是Cb信号樣值，或全部是Cr信号樣值。另外，像塊也用于表示8x8個抽樣值經DCT變換後所生成的8x8個DCT系數。

在幀内編碼的情況下，編碼圖像僅經過DCT，量化器和比特流編碼器即生成編碼比特流，而不經過預測環處理。DCT直接應用于原始的圖像數據。

在幀間編碼的情況下，原始圖像首先與幀存儲器中的預測圖像進行比較，計算出運動矢量，由此運動矢量和參考幀生成原始圖像的預測圖像。而後，将原始圖像與預測像素差值所生成的差分圖像數據進行DCT變換，再經過量化器和比特流編碼器生成輸出的編碼比特流。

可見，幀内編碼與幀間編碼流程的區别在于是否經過預測環的處理。

關鍵環節

餘弦變換DCT

DCT是一種空間變換，在MPEG-2中DCT以8x8的像塊為單位進行，生成的是8x8的DCT系數數據塊。DCT變換的最大特點是對于一般的圖像都能夠将像塊的能量集中于少數低頻DCT系數上，即生成8x8DCT系數塊中，僅左上角的少量低頻系數數值較大，其餘系數的數值很小，這樣就可能隻編碼和傳輸少數系數而不嚴重影響圖像質量。

DCT不能直接對圖像産生壓縮作用，但對圖像的能量具有很好的集中效果，為壓縮打下了基礎。

量化器

量化是針對DCT變換系數進行的，量化過程就是以某個量化步長去除DCT系數。量化步長的大小稱為量化精度，量化步長越小，量化精度就越細，包含的信息越多，但所需的傳輸頻帶越高。

不同的DCT變換系數對人類視覺感應的重要性是不同的，因此編碼器根據視覺感應準則，對一個8x8的DCT變換塊中的64個DCT變換系數采用不同的量化精度，以保證盡可能多地包含特定的DCT空間頻率信息，又使量化精度不超過需要。DCT變換系數中，低頻系數對視覺感應的重要性較高，因此分配的量化精度較細；高頻系數對視覺感應的重要性較低，分配的量化精度較粗，通常情況下，一個DCT變換塊中的大多數高頻系數量化後都會變為零。

之型掃描與遊程編碼

DCT變換産生的是一8x8的二維數組，為進行傳輸，還須将其轉換為一維排列方式。有兩種二維到一維的轉換方式，或稱掃描方式：之型掃描（Zig-Zag)和交替掃描，其中之型掃描是最常用的一種。由于經量化後，大多數非零DCT系數集中于8x8二維矩陣的左上角，即低頻分量區，之型掃描後，這些非零DCT系數就集中于一維排列數組的前部，後面跟着長串的量化為零的DCT系數，這些就為遊程編碼創造了條件。

-遊程編碼中，隻有非零系數被編碼。一個非零系數的編碼由兩部分組成：前一部分表示非零系數前的連續零系數的數量（稱為遊程），後一部分是那個非零系數。這樣就把之型掃描的優點體現出來了，因為之型掃描在大多數情況下出現連零的機會比較多，遊程編碼的效率就比較高。當一維序列中的後部剩餘的DCT系數都為零時，隻要用一個“塊結束”标志(EOB)來指示，就可結束這一8x8變換塊的編碼，産生的壓縮效果是非常明顯的。

熵編碼

量化僅生成了DCT系數的一種有效的離散表示，實際傳輸前，還須對其進行比特流編碼，産生用于傳輸的數字比特流。簡單的編碼方法是采用定長碼，即每個量化值以同樣數目的比特表示，但這種方法的效率較低。而采用熵編碼可以提高編碼效率。熵編碼是基于編碼信号的統計特性，使得平均比特率下降。遊程和非零系數既可獨立的，也可聯合的作熵編碼。

熵編碼中使用較多的一種是霍夫曼編碼，MPEG-2視頻壓縮系統中采用的就是霍夫曼編碼。霍夫曼編碼中，在确定了所有編碼信号的概率後生産一個碼表，對經常發生的大概率信号分配較少的比特表示，對不常發生的小概率信号分配較多的比特表示，使得整個碼流的平均長度趨于最短。