Skip to article frontmatterSkip to article content

Section 7 - Codage de source

Abstract

Cette section traite des principes du codage de source appliqués aux systèmes de communication numériques. Elle aborde les techniques visant à réduire la redondance des données, à compresser efficacement l’information et à approcher les limites théoriques fixées par l’entropie de Shannon. Le but est de comprendre comment optimiser la représentation des données pour minimiser l’utilisation des ressources de transmission tout en préservant l’intégrité de l’information.

Introduction

Le codage de source vise à améliorer la représentation des données en réduisant leur redondance tout en préservant leur contenu informatif. Cette amélioration est essentielle pour minimiser l’utilisation des ressources de communication, telles que la largeur de bande et l’énergie, tout en garantissant une transmission efficace et fiable. L’objectif principal du codage de source est d’atteindre une compression maximale des données tout en respectant les limites théoriques établies par l’entropie de Shannon (plus d’informations à venir). Ces concepts ont été proposés par Claude Shannon, dans son célèbre article intitulé «A Mathematical Theory of Communication». REF: A Mathematical Theory of Communication

Le codage de source est une technique essentielle pour réduire les besoins en ressources tout en maintenant l’intégrité des données. Les critères de performance clés du codage de source incluent la longueur moyenne des codes, qui doit être proche de l’entropie de la source, ainsi que la variance des longueurs de code, qui reflète la régularité des représentations. Ces métriques permettent d’évaluer l’efficacité d’un algorithme de codage et son adaptabilité aux caractéristiques statistiques des données, garantissant ainsi une transmission améliorée dans des systèmes de communication modernes.

En télécommunications, une source génère des données qui doivent être transmises ou stockées. Ces sources peuvent être classées en sources continues et sources discrètes, selon la nature des données produites. Le codage de source s’applique uniquement aux sources discrètes. Les sources continues, bien qu’importantes dans les communications, nécessitent une étape de numérisation pour être adaptées au codage de source. Cette distinction met en évidence le rôle central des données discrètes dans la conception des systèmes de communication modernes.

Paramètres d’une source discrète

Définition: Une source discrète (discrete source) produit des séquences de données distincts, chacun ayant une probabilité d’occurrence. Ces symboles sont générés en fonction des caractéristiques statistiques de la source.

Propriétés :

Entropie de Shannon

Avec sa théorie, Shannon a introduit une technique pour quantifier l’information. Nous les définirons ici.

Définition: L’information
L’information apportée par une donnée si s_i , en bits, est inversément proportionnelle à sa probabilité d’occurrence. Elle est donnée par :
I(si)=log21pi=log2pi         bitsI(s_i) = \log_2 \frac{1}{p_i} = -\log_2 p_i \;\;\;\; \textrm{ bits}

Notez que les symboles fréquents contiennent moins d’information quand I(si)I(s_i) est faible, et les symboles rares contiennent plus d’information quand I(si) I(s_i) est élevé.

Définition: L’entropie
L’entropie (entropy) de la source H(S)H(\mathcal{S}) est la quantité moyenne d’information produite par symbole. Elle représente une mesure de l’incertitude ou de la redondance d’une source discrète. Elle est définie par :
H(S)=i=1Kpilog2pi         bitsH(\mathcal{S}) = -\sum_{i=1}^{K} p_i \log_2 p_i \;\;\;\; \textrm{ bits}

Une source avec des symboles équiprobables (tous les symboles ont des probabilités égales), donc pi=1Kp_i = \frac{1}{K} a une entropie maximale H(S)=log2KH(\mathcal{S}) = \log_2 K. Aucune autre source disposant de KK données ne peut créer une entropie plus élevée.

H(S)=0 H(\mathcal{S}) = 0 si un seul symbole a une probabilité de 1 (source déterministe). Cela signifie qu’il n’y a pas d’incertitude associée à cette source.

Codage de source

Le codage de source peut être interprété comme une technique d’étiquetage où chaque symbole produit par une source discrète est associé à une séquence binaire unique (un code). Ce processus vise à réduire la longueur moyenne des codes attribués aux symboles, en fonction de leurs probabilités d’occurrence.

L’objectif est d’associer à chaque symbole sk s_k un mot de (code binaire), exprimé par dk\bf{d}_k de longueur lk l_k , comme:

DonnéeD1D_1D2D_2\ldotsDKD_K
Probabilitép1p_1p2p_2\ldotspKp_K
Mot de coded1\mathbf{d}_1d2\mathbf{d}_2\ldotsdK\mathbf{d}_K
Longueur du codel1l_1l2l_2\ldotslKl_K

Critères de performance d’un codeur de source

Pour évaluer son efficacité, plusieurs critères de performance sont pris en compte, comme décrit ci-dessous. Ces critères permettent d’évaluer l’efficacité et l’adéquation des algorithmes de codage de source pour des applications spécifiques. Un bon algorithme doit minimiser la longueur moyenne des codes et la redondance, tout en maximisant l’efficacité de compression, tout cela avec une complexité raisonnable.

Codage de Huffman

Le codage de Huffman est une méthode de codage de source optimale basée sur les probabilités des symboles. C’est-à-dire que les codes de Huffman donnent la longueur de code moyenne, lˉ\bar{l}, la plus courte possible. Un codage optimal comme Huffman attribue des codes plus courts aux symboles fréquents pour réduire .

Elle attribue des codes binaires plus courts aux symboles fréquents et des codes plus longs aux symboles rares. Le codage de Huffman, avec ses applications dans le texte, les images et les vidéos, constitue une méthode efficace pour atteindre cet objectif. Cette approche illustre la manière dont les principes mathématiques, tels que l’entropie de Shannon, se traduisent en solutions pratiques pour les défis des télécommunications modernes.

Le codage de source en tant que technique d’étiquetage attribue des séquences binaires aux symboles d’une source discrète, en optimisant la longueur moyenne des codes (lˉ \bar{l} ) pour minimiser la redondance. Cette approche repose sur les probabilités des symboles (pk p_k ) et leur relation avec l’information contenue (I(sk) I(s_k) ). Le résultat est une représentation efficace des données qui utilise des codes courts pour les symboles fréquents et des codes plus longs pour les symboles rares, respectant les contraintes de décodage unique et d’optimisation de la compression.

Resumé

Cette section traite de O7. Choix des techniques de codage de source adaptées à la compression des informations. Elle aborde les techniques visant à réduire la redondance des données, à compresser efficacement l’information et à approcher les limites théoriques fixées par l’entropie de Shannon. Le but est de comprendre comment optimiser la représentation des données pour minimiser l’utilisation des ressources de transmission tout en préservant l’intégrité de l’information.