[转]图象压缩（JPEG）编码算法及压缩过程的实现_diary1113

摘要

本文首先介绍了静态图像压缩（JPEG）编码算法的基本原理、压缩的实现过程及其重要过程的离散余弦变换（DCT）算法的实现原理及软件实现的例程，其次着重介绍了压缩过程中的DCT、量化和编码三个重要步骤的实现原理。

关键词：图像压缩有损压缩 JPEG 离散余弦变换 DCT 量化

{dy}章图像压缩编码的综述

1.1 图象压缩的目的和方法

图象的数字化表示使得图象信号可以高质量地传输，并便于图像的检索、分析、处理和存储。但是数字图像的表示需要大量的数据，必须进行数据的压缩。即使采用多种方法对数据进行了压缩，其数据量仍然巨大，对传输介质、传输方法和存储介质的要求较高。因此图象压缩编码技术的研究显得特别有意义，也正是由于图象压缩编码技术及传输技术的不断发展、更新，推动了现代多媒体技术应用的迅速发展。

1.1.1 图象压缩的目的

图象采样后，如果对之进行简单的8bit量化和PCM编码，其数据量是巨大的。以CIF（Common Intermediate Format）格式的彩色视频信号为例，若采样速率为25帧/秒，采样样点的Y、U、V分量均为8bit量化，则一秒钟的数据量为：

352×288×3×8×25＝60.83Mbit

要传输或存储这样大的数据量是非常困难的，必需对其进行压缩编码，在满足实际需要的前提下，尽量减少要传输或存储的数据量。

虽然数字图象的数据量巨大，但图象数据是高度相关的。一幅图象的内部相邻象素之间，相邻行之间的视频序列中相邻图象之间有大量冗余信息—空间相关性和时间相关性，可以使用各种方法尽量去除这些冗余信息，减少图象的数据量。

除了时间冗余和空间冗余外，在一般的图象数据中还存在信息熵冗余、结构冗余、知识冗余和视觉冗余。各种冗余就是压缩图象数据的出发点。图象编码的目的就在于采用各种方法去除冗余，以尽量少的数据量来表示个重建图象。

1.1.2图象压缩的几种方法

1.统计和字典的压缩方法

常规程序和计算机熵的数据对于那些基于利用统计变种的压缩，效果很好，这些统计变种表现在单个符号的频率以及符号或短语字符串的频率等方面，而基于字典的系统实际山就是假扮统计程序。可是遗憾的是，这类压缩对于连续色调图象的作用并不很好。

这些程序的主要问题产生于这样的一个事实：照片图象的象素广泛地分布在整个范围。如果将图象中的彩色用频率分布画出，那么频率分布图中，没有我们在统计压缩的成功的情况下所看到的“尖峰”状，实际上，如果延长这个分布图，那么从类似于电视那样的生活图象源中得出的分布图会趋于平展。这意味着，每个象素代码彼此是大约相同的出现机会，决定不存在挖掘熵差的任何机会。

基于字典的压缩程序的运行也有类似的问题，基于扫描照片的图象决定没有任何类型的数据特征以产生相同的短语的多次出现。例如，一个栅格化的图象，类似房子墙边的垂直部分，在图片的许多连续的行中可能可以给出相似的字符串。但不幸的是，由于真实世界是变化多端的，每行中的相同的性能将彼此地略有不同，对于20个象素的一个字符串，其中的一两个象素会因扫描而彼此出现一步长的变化，虽然这些不同点小到人眼不能探测或对人眼不起作用，但他们毕竟妨碍了基于字典压缩的工作，对于这类压缩方法来说，字符串必须严格匹配，由于小的变化，而使匹配的字符串长度趋于很小，这就限制了压缩的效率。

2.有损压缩

类似于音频数据，图形图象也同样有一个比常规计算机数据文件优越的地方：在压缩/扩展的循环中，他们可以被略微改动，而不会影响用户的立即质量。如果仔细修改，那么各处象素的xx灰度可以xx不被注意地进行小的改变。由于计算机栅的图形图象通常来自对真实世界源的扫描，所有他们通常表达一个已经不xx的照片的表达或是不xx的其他打印接着的表达。没有改变图象基本性能的有损压缩程序应该是可行的。

假设图形图象的有损压缩是可能的，那么它是如何实现的呢？研究人员最初试验了用于语音信号的同样的技术，如差分编码和自适应编码，虽然这些技术对图象有帮助，但并没有达到所希望的那么好，原因之一是音频数据和视频数据根本不同。

用常规格式采样的音频数据是趋于反复的，声音，包括讲话，是由每次几秒的重复的正弦波组成的。虽然计算机上DAC的输入流可能由许多不同的频率叠加在一起而成，但是正弦波通常产生反复的波形。

音频反复的本性自然使他利于压缩，线性预言编码和自适应差分脉冲编码调制等技术就利于了这一点，因此将音频数据流压缩了50％到95％。

但开始研究图形压缩时，人们也试图用相似的技术压缩数字化的图象，取得了一些成功。最初，研究人员进行栅格化数据流的压缩，如显示在电视机栅的数据。

图形数据栅格化时，图形显示成一个象素流，每次一行地显示在屏幕上，从左到右，从上到下。这样，当完成一行时，图片的一个细片就画出了，直到整个屏幕填满。数字化时，象素可以使用从1位到24位，如今的琢磨图形常常使用8位来定义一个象素。

3.差分调制

差分调制依赖余模拟数据趋于“平缓”的变化，信号幅度撒谎那个的大的跳变是例外，而不是常规。在音频数据中，只要信号的采样率一定程度地高于信息本身的{zd0}的频率分量，那么大的跳变就不会产生。

音频信号的差分调制通过编码一个样点与前一个样点的不同来利用这一个特点。例如，如果单频样点位8位，差分编码系统可能用4位来编码样点之差，这就将输入数据压缩了50％。这种压缩方法中所产生的损失是来自于：使用标准的差分方法不可能总是xx地编码。信号的增长可能快于比编码的允许，或者，编码可能太粗而不能容纳下的差别，差分编码的有损性可以很好的处理，以产生出好的信号。

当压缩图形数据时，差分调制有很多问题。首先，图形中的象素依赖于平缓的增加或减少时不可靠的，一幅图中不同的分量间的明显界限时常有的事情。这意味着，使用差分编码的系统需要接受样点间的大的不同和小的不同。这就限制了压缩的效率。带有数据长结构的许多图象可以压缩的很好。长结构中的象素，彼此之间没有什么差别或差别很少；但时，带有突变部分的那些图象不可能压缩的很好。

通常，图形图象的差分的编码似乎不产生非常强于{zh0}的无损算法的压缩结果，他当然也不会产生所需要的、对压缩的数量级上的改进。

4.自适应编码

自适应编码（常常于差分编码一同使用）根据前面看到的一些象素而对将要到来的一些象素的信息做预言。例如，如果一幅灰度级照片中的{zx1}的十个象素的值都在45到50之间，那么自适应压缩系统可能预言，下一个象素很大可能也在这个范围中，之后，类似于霍夫曼或算术编码那样的基于熵的编码方案可能给将来到来的各种代码赋以概率值。可以代替地使用压缩－扩展方法，将最细的粒度赋给最接近预言猜测的范围。

第二章JPEG编码算法

2.1JPEG压缩编码基础

七十年代末八十年代初，研究工作开始着眼于新的图像压缩类型，希望能够大大地优于前面所讨论过的那些非常一般的压缩技术。到八十年代末，开始可为桌面系统的图像处理而寻找应用的工作，大多是是为UNIX和Macintosh工作站加入的协处理器卡的形式，这些卡的图象质量没有任何可见退化的情况下，可以以95％的比率执行图像的有损压缩。

同时，另一部分人开始发展一个国际标准，它能够包括这些新的压缩的种类。如果标准允许方便的图形格式的互换，那么，显然，对于各方面都是有利的，关于标准化工作，早期的担心是：它会限制进一步革新的可能性。两个标准化组织，CCITT和ISO，分别从涉及图像压缩的工业和学术两个入手，并且，似乎已经潜在的阻止了工作的负结果。

2.2.1JPEG算法于JPEG小组简介

JPEG（Joint Photographic Experts Group）是由 ISO/IEC JTC1/SC2/WG8和CCITT VIII/NIC于1986年底联合组成的专家小组。JPEG小组的工组事研究具有连续色调的图像（包括灰度及彩色图像）的压缩算法，并将其制定为适用于大多数图像存储及通信局设备的标准算法，JPEG小组于1990年提出JPEG算法的建议，并决定对建议中的算法不再修改，除非发现了危害压缩算法标准的问题。

作为静态图像压缩的标准算法，JPEG算法必须满足以下要求：算法独立于图像的分辨率；具有低于1bit/象素的编码率，并且能够在五秒钟内建立图像，以满足实时要求；在压缩比大约是2的情况下能够无失真地恢复原图像；支持顺序编解码和渐进编解码；以及对各种图像成分及数据精度的自适应能力；{zh1}，要求编解码设备简单易实现。

JPEG小组指定了一系列实现静态图像压缩编码的方法，这些方法的选择决定于具体应用的要求及性能价格比的考虑。这些方法基本上可以分为两类：基于离散余弦变换的编码和基于空间域预测编码的方法。前者，即离散余弦变化的方法压缩倍率较高但算法复杂，较难实现；后者，即预测编码的方法虽然压缩倍率较低，但是可以实现无损压缩。

JPEG中允许四种编解码模式：

（1）基于DCT的顺序模式（sequential DCT-based）

（2）基于DCT的渐进模式（progressive DCT-based）

（3）无失真模式（Lossless）

（4）层次模式（hierarchical）.

其中，（1）和（2）是基于DCT的有损压缩；（3）是基于线性预测的无损压缩；（4）可以是DCT与线性预测的分层混合。

JPEG算法可分为基本JPEG和扩展,即Baseline System 与Extended System。在Baseline System中生成的编码文件，在Extended System中一定可以正确解码。

2.1.2 JPEG压缩

JPEG有损压缩算法在三个成功的阶段中操作，见图2－1

DCT Coefficient Lossless

Transformation → Quantization → Compression

这三个步骤形成了一个强有力的压缩器。，可以将连续色调图像压缩到少于原大小的10％，同时丢失很少的原始逼真度。

2.2 JPEG中的二维DCT

本文所讨论的压缩过程的关键是被称为离散余弦变换（Discrete Cosine Transform，DCT）的数学变换。Baseline System中的DCT要求输入数据是一个8×8的矩阵，且每个矩阵元素具有8bit精度，分为从－128到127，故DCT变换前，象素值先要减去128。所谓8×8的二维DCT是指将8×8的象素值矩阵变换成8×8系数矩阵。8×8象素值矩阵是由输入图像分块得到的，若图像的高或宽不是8的整数倍，必须扩展其下边或右边到8的整数倍。

下面（式2－1）给出了二维DCT的实用公式。式2－2是反离散余弦变化（IDCT）公式。式中表示的是8×8个象素值的矩阵进行计算的，产生出8×8频率系数的矩阵。

8×8的DCT及IDCT 公式如下：

这个公式初看起来让人害怕，但它可以用相当直接的代码段来表示。

for ( i = 0 ; i < 8 ; i + + )

for ( j = 0 ;j < 8 : j + + ){

temp ＝ 0.0;

for ( x = 0 ; x < 8 ; x ++ )

for ( y = 0 ; y < 8 ; y ++ ){

temp += Cosines [ x ] [ i ]*Cosines[ y ][ j ]*pixel[ x ][ y ];

}

temp * = sqrt ( 2 * 8 ) * Coefficient[ i ][ j ];

DCT [ i ][ j ] = INT_ROUND (temp);

}

2.3DCT的实现

测验DCT算法时所表现出的首要的问题之一是计算DCT中每个元素所需要的世界紧紧地依赖于矩阵的大小。由于使用双层嵌套循环，所以计算量为：随着N的增长，处理DCT输出数组中每个元素所要的时间也将增长。DCT的实现将图像分成更小更能处理的块，JPEG小组选用8×8的块大小进行DCT计算。

虽然DCT大小的增加可能得到更好的压缩，但是，达到减弱返回点的时间也不会很长。研究表明，象素之间的练习很快趋于减弱，因此，原点15或20个象素位以外的象素对于预言器来说用处不大，这意味着64×64的DCT块比起将它分成四个16×16块，不会有更好的压缩，并且，越是不重要，花费的计算时间越多。

虽然，使用16×16的块做为DCT计算的基础的确是一个好的选择，但是JPEG委员会选择的就是8×8的块，这主要是，为了允许那些使用今天技术所建立起的使用实现。这类压缩称作“块压缩”。

2.3.1矩阵相乘

上面显示的DCT定义是相当直接的双层嵌套循环。循环的内层元素为每个要计算的元素执行N×N次，循环的内层有两个相乘操作和一个相加操作。

更为有效的DCT形式可能是使用矩阵操作进行计算。为实现这个操作。首先要建立称为余弦变化矩阵（Cosine Transform Matrix）的一个矩阵C，该矩阵由式2－3给出。

＝ if i＝0

if i>0

一旦建立了余弦变换矩阵，我们绕着它的主对角线旋转，将其转置，这个转置矩阵在代码中表示，称作转置余弦变换矩阵。矩阵的建立只需在程序初始化时进行一次，两个矩阵可以用相对短小的循环在同一时刻建立。见下面的代码：

for ( j = 0 ;j < N;j ++){

C[ 0 ][ j ] = 1.0 / sqrt (N);

Ct[ j ][ 0 ] = C[ 0 ][ j ];

}

for ( i = 1 ;i < N; i ++)

for ( j = 0; j < N ;j ++) {

C[ i ][ j ] = sqrt ( 2.0/N )*cos( ( 2* j + 1 ) * i * pi / ( 2.0 * N )) ;

Ct[ j ][ i ] = C[ i ][ j ];

}

一旦这两个矩阵建立，我们就可以使用DCT函数的替代定义：

DCT = C * 象素 * Ct

在这个等式中，“*”运算符表示的事矩阵相乘，而不是一般的算术相乘。等式中的每个因子是一个N*N的矩阵，在JPEG算法以及本章所只用的程序中，矩阵为8×8。进行两个矩阵相乘时，输出矩阵中每个元素的运算代价时N个乘法操作和N个加法操作，由于我们用两个矩阵相乘来建立DCT矩阵，在变换后的DCT矩阵中的每个元素都是用2N个乘法和加大建立起来的，这一点，大大地改进了前面使用嵌套循环的DCT定义。

/ * MatrixMultiply( temp , input , Ct )*/

for ( i = 0 ; i < N; i ++ ){

for ( j = 0 ;j < N ; j ++ ) {

temp[ i ][ j ] = 0.0

for ( k = 0 ; k < N ; k ++ )

temp[ i ][ j ] + = ( pixel [ i ][ k ] * Ct[ k ] [ j ] ;

}

/ * MatrixMultiply( output ,C, temp ); */

for ( i = 0 ; i < N ; i ++ ) {

for ( j = 0 ; j < N ; j ++ ) {

temp1 = 0.0;

for ( k = 0 ; k < N ; k ++ )

temp1 + = C[ i ][ j ] * temp [ k ][ j ];

DCT[ i ][ j ] = temp1 ;

}

上面显示的是通过矩阵运算实现DCT的简单代码片段。值得注意的是，代码中主要是两个三层的嵌套循环，{dy}个三层嵌套循环是用输入的象素序列于转置余弦变换矩阵相乘，产生临时矩阵；之后，在第二个三层嵌套循环中，临时矩阵于余弦变换矩阵相乘，产生输出的DCT矩阵。

第三章压缩过程

3.1DCT的输出

由输入的象素值矩阵及输出的DCT矩阵可已经看出DCT所建立的频谱压缩特性。“直流系数”位于矩阵左上角的位置，这个表示的是输入矩阵的所有幅度的一个平均，它代表了X和Y坐标轴上的DC分量，而且直流系数要比DCT矩阵中任意值都打至少一个数量级。另外，在DCT矩阵中有一个通常的趋势，随着元素离直流系数越来越远，这些元素的幅度上也变的越来越小。这意味着，通过在输入数据中执行DCT，我们已经将图像的表达集中在输出矩阵的左上角的系数上，而DCT矩阵的右下角部分所包含的是没有用的信息。也很有利于数据的压缩。

3.2 量化

由图2－1可知JPEG压缩过程分为三个步骤。{dy}步是DCT变换，这是一个无损压缩变换，它实际上并不实现压缩，是“有损”的准备，即为“量化”处理阶段做准备。DCT输出矩阵比原始象素矩阵占有更多的存贮空间，DCT函数的输入包括8位象素值，但输出值的范围从－1024到1023，占用11位，因此，为使DCT矩阵占用较少空间，就需要做些事情。减少DCT矩阵存贮位数的行为称为“量化”（Quantization）。量化只不过是通过减少整数单精度来减少存贮整数值所需要的位数{dy}个过程。一旦DCT图像压缩，我们可以随着原理原点处的直流系数越来越多的减少系数的精度：离（0，0）点越远，这个元素对于图形图像的贡献就越小，所有我们就越不用注意去维持这个值的xx精度。

3.2.1量化的算法描述

JPEG算法使用量化矩阵（Quantization Matrix）来实现量化。对于DCT矩阵中的每个元素位置，两个矩阵中的相应位置给出了一个量子值（Quantum Value），量子值指示出图像压缩时元素的步长大小是多少，其范围是1到255。

与图像关系最密切的元素用小步长编码，大小为1表示{zg}精度。随着我们从原点移开，值将变得较高，量化的实际公式相当简单：

量化后的值（i, j）＝圆整成最近的整数

从公式中可以清楚地看到，大于25或50的量化值可能可以保证素有高频分量实际上将近似到0，只有高频系数达到不寻常大值，才会编码成非0。

译码时，逆量化公式为：

DCT（i, j）＝量化后的值（i，j）*量子（i, j）