Technorati 標簽:
mp3,
bit ratio 摘自:http://digi.maddiy.com/mp3/diy/2007-05-22/2600.html
數字音頻格式即以數字形式進行記錄、處理和播放的音頻信號。數字音頻格式的出現,是為了滿足高保真復制、存儲、傳輸的需求。簡單的說,早期的模擬音頻格式,存在著復制失真和因為介質磨損而失效的問題。從CD盤的問世開始,數字格式音頻文件開始普及,但又產生了一個問題——存儲體積上的限制,同時CD盤仍然存在磨損的現象。如果保存到硬盤上(相對存儲時間更長),在當時存儲介質(主要是硬盤)仍然昂貴的情況下,也不是好的解決方法。而互聯網的出現,更產生了遠距離傳輸文件的要求,在帶寬的制約下,縮小文件體積的需求變得更加強烈,這些都從外部因素上導致了有損壓縮數字音頻格式產生!
而從內部因素來說,隨著電腦運算、編碼能力的提高,各種聲學心理模式的進步,促進了各種有損壓縮數字音頻格式的層出不窮。以下簡要介紹一些在MP3隨身聽上廣泛使用的音頻格式——MP3(CBR、VBR、ABR)、WMA、WAV、ADPCM,以及新興的音頻格式AAC、ASF和OGG。
在介紹幾種數字音頻格式之前,我們先來明晰一個概念——Bit Rate(比特率)。
在計算機領域中,所有的資料都是被數字化的,比特(Bit)是電腦中最小的數據單位,指一個0或者1的數,也就是數學上的二進制數字,一個“0”或“1”,就是一個位。例如當我們說一個2位的數字,就是指它是一個兩位數的二進制數字,有“00”、“01”、“10”、“11”這4種組合,分別代表十進制中的0、1、2、3四個數字。
比特率是一種數字音樂壓縮效率的參考性指標,比特率表示單位時間(1秒)內傳送的比特數bps(bit per second,位/秒),通常我們使用kbps(通俗地講就是每秒鐘1000比特)作為單位。CD中的數字音樂比特率為1411.2kbps(也就是記錄1秒鐘的CD音樂,需要1411.2×1024比特的數據)。音樂文件的比特率越高,意味著在單位時間(1秒)內需要處理的數據量(Bit)越多,也就表明音樂文件的音質越好。但是,比特率高時文件大小變大,會占據很多的存儲容量,MP3音樂文件最常用的bit rate是128kbps,MP3文件可以使用的比特率一般是8~320kbps。
--------------------------------------------------------------------------------
1、 WMA(Windows Media Audio,視窗媒體音頻)
作為微軟公司的多媒體壓縮方式,它是在Windows Media Technologies中只壓縮音頻數據的那一部分技術,音質類似MP3,能以MP3一半的技術完成壓縮。它具有版權所有的Windows Media Rights Manager,可通過安裝在WMP(Windows Media Player,視窗媒體播放器)進行播放。由于微軟和Windows的強大影響力,以及最重要的版權原因,美國的主要唱片公司EMI和BMG公司等正式確定使用由微軟公司開發生產的WMA方式。相信,今后這種先進方式會得到進一步的普及。
2、 MP3(CBR、VBR、ABR)
MP3是目前使用用戶最多、應用最為廣泛的有損壓縮數字音頻格式,在前文已經做過解釋,在此不再復述。
CBR(Constant Bit Rate,固定比特率)
CBR是最古老最簡單的MP3編碼(壓縮)方式。采用此法編碼時,整個文件的比特率都是一樣的,換言之,MP3文件每秒使用的比特率都是一樣。盡管音樂文件有復雜程度不同的段落,編碼器始終把比特率保持一致,除非你用最高音質,否則,MP3文件中不同段落的音質會有變化。越是復雜的段落,其音質就越差。它的最大優點是文件的尺寸固定,便于計算存儲的空間。
VBR(Variable Bit Rate,可變比特率)
VBR是一種可變編碼速率的MP3壓縮方式,其原理就是將一首歌的復雜部分用高比特率編碼,簡單部分用低比特率編碼,通過這種動態調整編碼速率的方式,進一步得到音質和文件體積之間的平衡。它的主要優點是可以讓整首歌都能大致達到我們的音質要求,缺點是編碼時無法估計壓縮出來的文件體積大小。
現在推出的MP3隨身聽大部分都支持VBR了,不過有些機器雖然能夠播放VBR格式的歌曲,但是不能夠正確顯示播放時間,目前許多高品質的MP3音樂都是采用VBR編碼的。
ABR(Average Bit Rate,平均比特率)
ABR是VBR的一種插值參數,它是在VBR的基礎上發展出來的一種編碼方式,是針對CBR較大的文件體積和VBR生成文件體積大小不定的特點創造了這種編碼模式。ABR在指定的文件大小內,以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對低的流量,高頻和大動態表現時使用高流量,可以作為VBR和CBR的一種折中選擇。
3、 WMA(Windows Media Audio,視窗媒體音頻)
WMA是微軟公司的多媒體壓縮方式,它是在微軟視窗媒體技術中只壓縮音頻數據的技術,音質類似MP3。從壓縮比角度來說,在低于192kbps的編碼速率條件下,WMA可以在同樣音質條件下獲得比MP3文件更小的體積——甚至一半(但當編碼速率高于192kbps時,普遍的反映是MP3的音質要好于WMA)。微軟官方宣布的資料中稱WMA格式的可保護性極強,甚至可以限定播放機器、播放時間及播放次數,具有相當的版權保護能力。
4、 WAV(聲音資源文件)
WAV是一種波形文件,直接記錄聲音的波形,未被壓縮,從CD抓取的音軌就是wav文件,體積大。
5、 ADPCM
ADPCM是Adaptive Differential Pulse Code Modulation的縮寫,全名為自適應差分脈沖編碼,也是一種有損壓縮數字音頻格式。這個格式常用在MP3隨身聽的錄音方面,它可以提供極高的壓縮比,一般128MB的MP3隨身聽最長可以記錄16小時的錄音,但追求錄音時間過長是以犧牲音質為代價的。
6、 AAC(Advanced Audio Coding,高級音頻編碼)
AAC是由Fraunhofer研究院(MP3格式的創造者)、杜比(DOLBY)試驗室和AT&T(美國電話電報公司)共同研發出的一種有損壓縮音頻格式,是MPEG-2規范的一部分。與MP3相比,AAC增加了對立體聲的完美再現、碼流效果音掃描、多媒體控制、降噪優化等MP3音頻格式所沒有的特性,同時還支持更多種采樣率和比特率、多種語言的兼容能力、更高的解碼效率??傊?,AAC可以在比MP3文件縮小30%的前提下提供更好的音質。
不過,在目前的MP3隨身聽上,僅有少數幾家應用了這一格式。
7、 ASF(Advanced Streaming Format,高級流動格式)
ASF是微軟公司針對Real公司開發的新一代網上流式數字音頻壓縮技術。這種壓縮技術的特點是同時兼顧了保真度和網絡傳輸需求,所以具有一定的先進性。也是由于微軟的影響力,這種音頻格式現在正獲得越來越多的支持。
8、 OGG Vorbis格式
OGG是一個龐大的多媒體開發計劃的項目名稱,涉及視頻音頻等方面的編碼開發。OGG Vorbis是高質量的音頻編碼方案,它比MP3先進在于可以支持多聲道編碼。官方數據顯示,OGG Vorbis可以在相對較低的數據速率下實現比MP3更好的音質。但由于隨身聽使用耳機播放的局限,即便是經過多聲道(兩聲道以上)編碼的OGG Vorbis格式音頻文件,用耳機收聽也感受不到環繞效果,因為耳機只提供雙聲道輸出。
什么是MP3
摘自:http://zhidao.baidu.com/question/2839473.html?fr=qrl
MP3的全稱是Moving Picture Experts Group, Audio Layer III,它所使用的技術是在VCD
MPEG聲音標準提供三個獨立的壓縮層次:層1(Layer 1)、層2(Layer 2)和層3(Layer 3),用戶對層次的選擇可在復雜性和聲音質量之間進行權衡。
① 層1的編碼器最為簡單,編碼器的輸出數據率為384 kb/s,主要用于小型數字盒式磁帶(digital compact cassette,DCC)。
② 層2的編碼器的復雜程度屬中等,編碼器的輸出數據率為256 kb/s~192 kb/s,其應用包括數字廣播聲音(digital broadcast audio,DBA)、數字音樂、CD-I(compact disc-interactive)和VCD(video compact disc)等。
③ 層3的編碼器最為復雜,編碼器的輸出數據率為64 kb/s,主要應用于ISDN上的聲音傳輸。
Mpeg-1 lay 3支持的采樣率為32,44.1,48khz,比特率支持32---320kbps
Mpeg-2 lay 3支持的采樣率為16,22.05,24khz,比特率支持8---160kbps
Fraunhofer對此又進行擴展,將原來MPEG-2所支持的低采樣率再除以2,得到: 8, 11.025, 和 12 kHz,比特率跟MPEG-2相同,稱為 "MPEG 2.5"。
MP3文件可以以不同比特率進行編碼,比特率越小,壓出來的文件也越小,當然失真也越大。至于它的品質,只要不是太夸張的壓縮比,一般人的耳朵是聽不出來的,一般來說128kbps已經相當于CD的音質了。
Mp3是怎樣壓縮數據的
MP3 壓縮時運用到五個重要的技巧,分別是最小聽覺門檻判定 (The minimal audition threshold) ,遮蔽效應 (The Masking effect) ,位元儲存槽 (The reservoir of byres) , The Joint Stereo ,和 Huffman 編碼。
最小聽覺門檻判定是一種減少資料量的手段,因為人耳對不同頻率的聲音聽到的音量反應不是平直的,因此我們可以將大部分的紀錄資訊集中在人耳最靈敏的 2kHz 到 5kHz ,其余頻率分配比較少的容量紀錄。
遮蔽效應也是聽覺心理學模型 (Psychoacoustic models)的一種,它是指一個聲音A能感知的閥值因另一個聲音B的出現而提高的現象,這時B叫遮蔽聲,A叫被遮蔽聲;在視覺上呈現的效果就是在大太陽下你比較難看到天空中飛翔的鳥,聽覺上的涵義就是當有一個音量或音色特別突出的聲音出現,其他細小的聲音就比較難被察覺,就像是管弦樂團齊奏時我們很難發現有觀眾的咳嗽聲,盡管咳嗽的音量與沒有其他聲音時其實是相同的。因此在編碼時我們不需要把所有的聲音細節都編進去,而該把資料拿去紀錄比較突出容易引起注意的聲音。
在解釋前位元儲存槽之前要先說明 MP3 的幾個屬性 CBR 和 VBR 。 CBR 是 Constant Bitrate 的縮寫,也就是說該 MP3 每秒鐘的資料流量是固定的,常見的 MP3 都是以 CBR 編碼,好處是壓縮速度快。相對的 VBR 是 Variable Bitrate的縮寫,每秒鐘的流量是可以變化的,好處是在訊號復雜時用比較多的容量去紀錄,波型簡單時就用比較低的流量,以有效利用空間。 CBR 的缺點就是每秒鐘的流量都相同,很容易造成空間的浪費,因此有 reservoir of byres 的出現,用途就是當波型簡單時就不要用那么大的流量,把多余的空間保留下來儲存將來比較復雜的波性資料,維持流量的大小,達到類似 VBR 的效果。 VBR 的 MP3 并不需要 reservoir of byres 。
Joint Stereo 是一種立體聲編碼技巧,主要分為 Intensity Stereo(IS) 和 Mid/Side (M/S) stereo 兩種。 IS 的是在比較低流量時使用,利用了人耳對于低頻訊號指向性分辨能力的不足,將音訊資料中的低頻分解出來合成單聲道資料,剩余的高頻資料則合成另一個單聲道資料,并另外紀錄高頻資料的位置資訊,來重建立體聲的效果。例如鋼琴獨奏的錄音就可以利用這種方法在有限的資料流量中減少音場資訊卻大幅增加音色資訊。Mid/Side (M/S) stereo 在左右聲道資料相似度大時常被用到,紀錄方式是將左右聲道音訊合并 (L+R) 得到新的一軌,再將左右聲道音訊相減 (L-R) 得到另外一軌,然后再將這兩軌資料用上面提到聽覺心理學模型與濾波器處理。 Mid/Side (M/S) stereo 與 IS 一樣的是利用部分相位 (phase) 資訊的損失來換得較高的音色紀錄資訊。一般的 MP3 是 Mid/Side stereo 和 Intensity Stereo 交替使用的,視資料內容與流量而定。如果是更高流量如 160kbps 以上的 MP3 ,則可以單獨將立體聲的兩個聲道獨立編碼,以保存相位資訊。
Huffman 編碼 (coding) 是一種常見的無失真壓縮方案。當 PCM 訊號被分成好幾個頻段并經過以上的處理之后,最后就是經過一種類似 FFT(Fast Fourier Transforms) 的運算稱為 MDCT(Modified Discrete Cosine Transform) ,將波型轉換為一連串的系數。這些系數最后就要經過 Huffman 編碼來做最后的壓縮。 Huffman 編碼的原理是將比較常出現的字串用特定的符號表示,壓縮后就得到一個紀錄每個符號代表的字串的編碼表以及一連串由各符號組成的資料內容。 Huffman 編碼可以節省約 20% 的空間,而也因為經過了 Huffman 編碼,我們可以發現用 WinZip 、 WinRAR 之類的壓縮軟體并沒有辦法把 MP3壓縮小多少,理由就是因為這些壓縮軟體也是利用類似 Huffman 編碼的技巧,因此壓縮程度有限。(以上關于 MP3 編碼的資料取自 http://www.mp3-tech.org/tech.html 。)
MP3 播放時的運算遠比編碼時簡單,只要先經過 Huffman 解碼再由 MDTC 的逆運算重建波型就可以了,值得注意的是 MP3不同于PCM沒有bits的概念,我們可以自由使用 16bits 或是 20bits 甚至 24bits 的運算精度來重建波型。
posted on 2008-06-05 09:37
YODA 閱讀(2168)
評論(4) 編輯 收藏