Theorie de l'information

ÔĽŅ
Theorie de l'information

Théorie de l'information

La théorie de l'information, sans précision, est le nom usuel désignant la théorie de l'information de Shannon, qui est une théorie probabiliste permettant de quantifier le contenu moyen en information d'un ensemble de messages, dont le codage informatique satisfait une distribution statistique précise. Ce domaine trouve son origine scientifique avec Claude Shannon qui en est le père fondateur avec son article A Mathematical Theory of Communications publié en 1949.

L'apparition de la th√©orie de l'information est li√©e √† l'apparition de la psychologie cognitive[r√©f. souhait√©e] dans les ann√©es 1940 - 1950.

Parmi les branches importantes de la th√©orie de l'information de Shannon, on peut citer :

Dans un sens plus g√©n√©ral, une th√©orie de l'information est une th√©orie visant √† quantifier et qualifier la notion de contenu en information pr√©sent dans un ensemble de donn√©es. A ce titre, il existe une autre th√©orie de l'information : la th√©orie algorithmique de l'information, initialis√©e par Kolmogorov, Solomonov et Chaitin au d√©but des ann√©es 1960.

Sommaire

Historique

La théorie de l'Information résulte initialement des travaux de Ronald Aylmer Fisher. Celui-ci, statisticien, définit formellement l'information comme égale à la valeur moyenne du carré de la dérivée du logarithme de la loi de probabilité étudiée.


\mathcal{I}(\theta)
=
\mathrm{E}
\left\{\left.
 \left[
  \frac{\partial}{\partial\theta} \ln f(X;\theta)
 \right]^2
\right|\theta\right\}

À partir de l'inégalité de Cramer, on déduit que la valeur d'une telle information est proportionnelle à la faible variabilité des conclusions résultantes. En termes simples, moins une observation est probable, plus son observation est porteuse d'information. Par exemple, lorsque le journaliste commence le journal télévisé par la phrase "Bonsoir", ce mot, qui présente une forte probabilité, n'apporte que peu d'information. En revanche, si la première phrase est, par exemple "La France a peur", sa faible probabilité fera que l'auditeur apprendra qu'il s'est passé quelque chose, et, partant, sera plus à l'écoute.

D'autres modèles mathématiques ont complété et étendu de façon formelle la définition de l'information.

Claude Shannon et Warren Weaver renforcent le paradigme. Ils sont ing√©nieurs en t√©l√©communication et se pr√©occupent de mesurer l'information pour en d√©duire les fondamentaux de la Communication (et non une th√©orie de l'information). Dans Th√©orie Math√©matique de la Communication en 1948, ils mod√©lisent l'information pour √©tudier les lois correspondantes : bruit, entropie et chaos, par analogie g√©n√©rale aux lois d'√©nerg√©tique et de thermodynamique. Leurs travaux compl√©tant ceux d'Alan Turing, de Norbert Wiener et de John von Neumann (pour ne citer que les principaux) constituent le socle initial de la th√©orie du signal et des ¬ę Sciences de l'Information ¬Ľ.

Pour une source X comportant n symboles, un symbole i ayant une probabilit√© pi d'appara√ģtre, l'entropie H de la source X est d√©finie comme :

 H(X)=-\sum_i^n p_i log_2 p_i

C'est au départ le logarithme népérien qui est utilisé. On le remplacera pour commodité par le logarithme à base 2, correspondant à une information qui est le bit. Les considérations d'entropie maximale (MAXENT) permettront à l'inférence bayésienne de définir de façon rationnelle ses distributions a priori.

L'informatique constituera une d√©clinaison technique automatisant les traitements (dont la transmission et le transport) d'information. L'appellation ¬ę Technologies de l'Information et de la Communication ¬Ľ recouvre les diff√©rents aspects (syst√®mes de traitements, r√©seaux, etc.) de l'informatique au sens large.

Les sciences de l'information dégagent du sens depuis des données en s'appuyant sur des questions de corrélation, d'entropie et d'apprentissage (voir Data mining). Les technologies de l'information, quant à elles, s'occupent de la façon de concevoir, implémenter et déployer des solutions pour répondre à des besoins identifiés.

Adrian Mc Donough dans Information economics d√©finit l'information comme la rencontre d'une donn√©e (data) et d'un probl√®me. La connaissance (knowledge) est une information potentielle. Le rendement informationnel d'un syst√®me de traitement de l'information est le quotient entre le nombre de bits du r√©servoir de donn√©es et celui de l'information extraite. Les data sont le cost side du syst√®me, l'information, le value side. Il en r√©sulte que lorsqu'un informaticien calcule la productivit√© de son syst√®me par le rapport entre la quantit√© de donn√©es produites et le co√Ľt financier, il commet une erreur, car les deux termes de l'√©quation n√©gligent la quantit√© d'information r√©ellement produite. Cette remarque prend tout son sens √† la lumi√®re du grand principe de Russel Ackoff qui postule qu'au-del√† d'une certaine masse de donn√©es, la quantit√© d'information baisse et qu'√† la limite elle devient nulle. Ceci correspond √† l'adage "trop d'information d√©truit l'information". Ce constat est aggrav√© lorsque le r√©cepteur du syst√®me est un processeur humain, et pis encore, le conscient d'un agent humain. En effet, l'information est tributaire de la s√©lection op√©r√©e par l'attention, et par l'intervention de donn√©es affectives, √©motionnelles, et structurelles absentes de l'ordinateur. L'information se transforme alors en sens, puis en motivation. Une information qui ne produit aucun sens est nulle et non avenue pour le r√©cepteur humain, m√™me si elle est acceptable pour un robot. Une information charg√©e de sens mais non irrigu√©e par une √©nergie psychologique (drive, cathexis, libido, ep, etc.) est morte. On constate donc que dans la cha√ģne qui m√®ne de la donn√©e √† l'action (donn√©es -> information -> connaissance -> sens -> motivation), seule les deux premi√®res transformations sont prises en compte par la th√©orie de l'information classique et par la s√©miologie. Kevin Bronstein remarque que l'automate ne d√©finit l'information que par deux valeurs : le nombre de bits, la structure et l'organisation des s√®mes, alors que le psychisme fait intervenir des facteurs dynamiques tels que passion, motivation, d√©sir, r√©pulsion etc. qui donnent vie √† l'information psychologique.

Exemples d'information

Une information désigne, parmi un ensemble d'événements, un ou plusieurs événements possibles.

En théorie, l'information diminue l'incertitude. En théorie de la décision, on considère même qu'il ne faut appeler information que ce qui est susceptible d'avoir un effet sur nos décisions (peu de choses dans un journal sont à ce compte des informations...).

En pratique, l'excès d'information, tel qu'il se présente dans les systèmes de messagerie électronique, peut aboutir à une saturation, et empêcher la prise de décision.

Premier exemple

Soit une source pouvant produire des tensions entières de 1 à 10 volts et un récepteur qui va mesurer cette tension. Avant l'envoi du courant électrique par la source, le récepteur n'a aucune idée de la tension qui sera délivrée par la source. En revanche, une fois le courant émis et réceptionné, l'incertitude sur le courant émis diminue. La théorie de l'information considère que le récepteur possède une incertitude de 10 états.

Second exemple

Une bibliothèque possède un grand nombre d'ouvrages, des revues, des livres et des dictionnaires. Nous cherchons un cours complet sur la théorie de l'information. Tout d'abord, il est logique que nous ne trouverons pas ce dossier dans des ouvrages d'arts ou de littérature; nous venons donc d'obtenir une information qui diminuera notre temps de recherche. Nous avions précisé que nous voulions aussi un cours complet, nous ne le trouverons donc ni dans une revue, ni dans un dictionnaire. nous avons obtenu une information supplémentaire (nous cherchons un livre), qui réduira encore le temps de notre recherche.

Information imparfaite

Soit un r√©alisateur dont j'aime deux films sur trois. Un critique que je connais bien √©reinte son dernier film et je sais que je partage en moyenne les analyses de ce critique quatre fois sur cinq. Cette critique me dissuadera-t-elle d'aller voir le film ? C'est l√† la question centrale de l'inf√©rence bay√©sienne, qui se quantifie aussi en bits.

Contenu d'information et contexte

Il faut moins de bits pour √©crire chien que mammif√®re. Pourtant l'indication M√©dor est un chien contient bien plus d'information que l'indication M√©dor est un mammif√®re : le contenu d'information s√©mantique d'un message d√©pend du contexte. En fait, c'est le couple message + contexte qui constitue le v√©ritable porteur d'information, et jamais le message seul (voir paradoxe du compresseur).

Mesure de la quantité d'information

Quantit√© d'information : cas √©l√©mentaire

Consid√©rons N bo√ģtes num√©rot√©es de 1 √† N. Un individu A a cach√© au hasard un objet dans une de ces bo√ģtes. Un individu B doit trouver le num√©ro de la bo√ģte o√Ļ est cach√© l'objet. Pour cela, il a le droit de poser des questions √† l'individu A auxquelles celui-ci doit r√©pondre sans mentir par OUI ou NON. Mais chaque question pos√©e repr√©sente un co√Ľt √† payer par l'individu B (par exemple un euro). Un individu C sait dans quelle bo√ģte est cach√© l'objet. Il a la possibilit√© de vendre cette information √† l'individu B. B n'acceptera ce march√© que si le prix de C est inf√©rieur ou √©gal au co√Ľt moyen que B devrait d√©penser pour trouver la bo√ģte en posant des questions √† A. L'information d√©tenue par C a donc un certain prix. Ce prix repr√©sente la quantit√© d'information repr√©sent√©e par la connaissance de la bonne bo√ģte : c'est le nombre moyen de questions √† poser pour identifier cette bo√ģte. Nous la noterons I.

EXEMPLE :

Si N = 1, I = 0. Il n'y a qu'une seule bo√ģte. Aucune question n'est n√©cessaire.

Si N = 2, I = 1. On demande si la bonne bo√ģte est la bo√ģte n¬į1. La r√©ponse OUI ou NON d√©termine alors sans ambigu√Įt√© quelle est la bo√ģte cherch√©e.

Si N = 4, I = 2. On demande si la bo√ģte porte le n¬į1 ou 2. La r√©ponse permet alors d'√©liminer deux des bo√ģtes et il suffit d'une derni√®re question pour trouver quelle est la bonne bo√ģte parmi les deux restantes.

Si N = 2k, I = k. On √©crit les num√©ros des bo√ģtes en base 2. Les num√©ros ont au plus k chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si la bo√ģte cherch√©e poss√®de le chiffre 0 ou le chiffre 1. En k questions, on a d√©termin√© tous les chiffres binaires de la bonne bo√ģte. Cela revient √©galement √† poser k questions, chaque question ayant pour but de diviser successivement le nombre de bo√ģtes consid√©r√©es par 2 (m√©thode de dichotomie).

On est donc amené à poser I = log2(N), mais cette configuration ne se produit que dans le cas de N événements équiprobables.

Quantité d'information relative à un évènement

Supposons maintenant que les bo√ģtes soient color√©es, et qu'il y ait n bo√ģtes rouges. Supposons √©galement que C sache que la bo√ģte o√Ļ est cach√© l'objet est rouge. Quel est le prix de cette information? Sans cette information, le prix √† payer est log(N). Muni de cette information, le prix √† payer n'est plus que log(n). Le prix de l'information ¬ę la bo√ģte cherch√©e est rouge ¬Ľ est donc log(N) ‚ąí log(n) = log(N / n).

On d√©finit ainsi la quantit√© d'information comme une fonction croissante de \frac{N}{n} avec :

  • N le nombre d'√©v√®nements possibles
  • n le cardinal du sous-ensemble d√©limit√© par l'information

Afin de mesurer cette quantit√© d'information, on pose : I = log_{2}  \left (\frac{N}{n} \right)

I est exprimé en bit (ou logon, unité introduite par Shannon, de laquelle, dans les faits, bit est devenu un synonyme), ou bien en nat si on utilise le logarithme naturel à la place du logarithme de base 2.

Cette d√©finition se justifie, car l'on veut les propri√©t√©s suivantes :

  1. l'information est comprise entre 0 et ‚ąě ;
  2. un √©v√®nement avec peu de probabilit√© repr√©sente beaucoup d'information (exemple : ¬ę Il neige en janvier ¬Ľ contient beaucoup moins d'information que ¬ę Il neige en ao√Ľt ¬Ľ pour peu que l'on soit dans l'h√©misph√®re nord) ;
  3. l'information doit être additive.

Remarque : lorsqu'on dispose de plusieurs informations, la quantit√© d'information globale n'est pas la somme des quantit√©s d'information. Ceci est d√Ľ √† la pr√©sence du logarithme. Voir aussi : information mutuelle, information commune √† deux messages, qui, dans l'id√©e, explique cette ¬ę sous-additivit√© ¬Ľ de l'information.

Entropie, formule de Shannon

Supposons maintenant que les bo√ģtes soient de diverses couleurs : n1 bo√ģtes de couleur C1, n2 bo√ģtes de couleur C2, ..., nk bo√ģtes de couleurs Ck, avec n1 + n2 + ... + nk = N. La personne C sait de quelle couleur est la bo√ģte recherch√©e. Quel est le prix de cette information ?

L'information ¬ę la bo√ģte est de couleur C1 ¬Ľ vaut log N/n1, et cette √©ventualit√© a une probabilit√© n1/N. L'information ¬ę la bo√ģte est de couleur C2 ¬Ľ vaut log N/n2, et cette √©ventualit√© a une probabilit√© n2/N...

Le prix moyen de l'information est donc n1/N log N/n1 + n2/N log N/n2 + ... + nk/N log N/nk. Plus généralement, si on considère k évènements disjoints de probabilités respectives p1, p2, ..., pk avec p1 + p2 + ... + pk = 1, alors la quantité d'information correspondant à cette distribution de probabilité est p1 log 1/p1 + ... + pk log 1/pk. Cette quantité s'appelle entropie de la distribution de probabilité.

L'entropie permet donc de mesurer la quantit√© d'information moyenne d'un ensemble d'√©v√®nements (en particulier de messages) et de mesurer son incertitude. On la note H :

H \left (I \right) = - \sum_{i\in I} p_i \mathbf{log}_2\; p_i

avec p_i = \frac{n_i}{N} la probabilité associée à l'apparition de l'évènement i.

Voir l'article d√©taill√© : entropie de Shannon.

Voir aussi une notion connexe : complexit√© de Kolmogorov.

Codage de l'information

On consid√®re une suite de symboles. Chaque symbole peut prendre deux valeurs s1 et s2 avec des probabilit√©s respectivement p1 = 0,8 et p2 = 0,2. La quantit√© d'information contenue dans un symbole est p1 log 1/p1 + p2 log 1/p2 ‚Čą 0,7219. Si chaque symbole est ind√©pendant du suivant, alors un message de N symboles contient en moyenne une quantit√© d'information √©gale √† 0,72N. Si le symbole s1 est cod√© 0 et le symbole s2 est cod√© 1, alors le message a une longueur de N, ce qui est une perte par rapport √† la quantit√© d'information qu'il porte. Les th√©or√®mes de Shannon √©noncent qu'il est impossible de trouver un code dont la longueur moyenne soit inf√©rieure √† 0,72N, mais qu'il est possible de coder le message de fa√ßon √† ce que le message cod√© ait en moyenne une longueur aussi proche que l'on veut de 0,72N lorsque N augmente.

Par exemple, on regroupe les symboles trois par trois et on les code comme suit :

symboles à coder probabilité du triplet codage du triplet longueur du code
s1s1s1 0.8³ = 0.512 0 1
s1s1s2 0.8² × 0.2 = 0.128 100 3
s1s2s1 0.8² × 0.2 = 0.128 101 3
s2s1s1 0.8² × 0.2 = 0.128 110 3
s1s2s2 0.2² × 0.8 = 0.032 11100 5
s2s1s2 0.2² × 0.8 = 0.032 11101 5
s2s2s1 0.2² × 0.8 = 0.032 11110 5
s2s2s2 0.2³ = 0.008 11111 5

Le message s1s1s1s1s1s2s2s2s1 sera codé 010011110.

La longueur moyenne du code d'un message de N symboles est : {N \over 3}(0.512 + 3 \times 0.128 \times 3 + 3 \times 0.032 \times 5 + 0.008 \times 5) = 0,728N

Voir l'article d√©taill√© : th√©orie des codes.

Voir aussi

Bibliographie

  • L√©on Brillouin Science et th√©orie de l'information.
  • L√©on Brillouin Science and information theory (typographie plus lisible, mais version en anglais)
  • Claude Shannon A mathematical theory of communication Bell System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and October, 1948 [1]
  • Thomas M. Cover, Joy A. Thomas. Elements of information theory, 1st Edition. New York: Wiley-Interscience, 1991. ISBN 0-471-06259-6.
  • (en) David MacKay, Information Theory, Inference, and Learning Algorithms, 2003 [d√©tail des √©ditions]

Liens externes

  • Portail de l‚Äôinformatique Portail de l‚Äôinformatique
  • Portail des math√©matiques Portail des math√©matiques
Ce document provient de ¬ę Th%C3%A9orie de l%27information ¬Ľ.

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Theorie de l'information de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Th√©orie de l'Information ‚ÄĒ La th√©orie de l information, sans pr√©cision, est le nom usuel d√©signant la th√©orie de l information de Shannon, qui est une th√©orie probabiliste permettant de quantifier le contenu moyen en information d un ensemble de messages, dont le codage… ‚Ķ   Wikip√©dia en Fran√ßais

  • Th√©orie de l'information ‚ÄĒ La th√©orie de l information, sans pr√©cision, est le nom usuel d√©signant la th√©orie de l information de Shannon, qui est une th√©orie probabiliste permettant de quantifier le contenu moyen en information d un ensemble de messages, dont le codage… ‚Ķ   Wikip√©dia en Fran√ßais

  • th√©orie de l'information ‚ÄĒ informacijos teorija statusas T sritis automatika atitikmenys: angl. information theory vok. Informationstheorie, f rus. —ā–Ķ–ĺ—Ä–ł—Ź –ł–Ĺ—Ą–ĺ—Ä–ľ–į—Ü–ł–ł, f pranc. th√©orie de l information ‚Ķ   Automatikos terminŇ≥ Ňĺodynas

  • th√©orie de l‚Äôinformation ‚ÄĒ informacijos teorija statusas T sritis fizika atitikmenys: angl. information theory vok. Informationstheorie, f rus. —ā–Ķ–ĺ—Ä–ł—Ź –ł–Ĺ—Ą–ĺ—Ä–ľ–į—Ü–ł–ł, f pranc. th√©orie de l‚Äôinformation, f ‚Ķ   Fizikos terminŇ≥ Ňĺodynas

  • Th√©orie de l'information quantique ‚ÄĒ Information quantique L information quantique et l informatique quantique sont deux domaines qui se jouxtent : informellement, les algorithmes Q (pour ¬ę quantiques ¬Ľ), par exemple l algorithme de Shor, de Grover, etc., ont √©t√©… ‚Ķ   Wikip√©dia en Fran√ßais

  • Theorie des systemes sociaux ‚ÄĒ Th√©orie des syst√®mes sociaux La th√©orie des syst√®mes sociaux est une th√©orie sociologique d√©velopp√©e par le sociologue et penseur allemand Niklas Luhmann √† partir des bases de la th√©orie de Talcott Parsons dont il a suivi les cours √† Harvard… ‚Ķ   Wikip√©dia en Fran√ßais

  • information ‚ÄĒ [ …õŐÉf…Ērmasj…ĒŐÉ ] n. f. ‚ÄĘ 1274; lat. informatio I ‚ô¶ Dr. Ensemble des actes qui tendent √† √©tablir la preuve d une infraction et √† en d√©couvrir les auteurs. ‚áí instruction (pr√©paratoire). Ouvrir une information. Information contre X. Information… ‚Ķ   Encyclop√©die Universelle

  • Theorie de la complexite algorithmique ‚ÄĒ Th√©orie algorithmique de l information La Th√©orie algorithmique de l information, initi√©e par Kolmogorov, Solomonov et Chaitin dans les ann√©es 1960, vise √† quantifier et qualifier le contenu en information d un ensemble de donn√©es, en utilisant… ‚Ķ   Wikip√©dia en Fran√ßais

  • Th√©orie de la complexit√© algorithmique ‚ÄĒ Th√©orie algorithmique de l information La Th√©orie algorithmique de l information, initi√©e par Kolmogorov, Solomonov et Chaitin dans les ann√©es 1960, vise √† quantifier et qualifier le contenu en information d un ensemble de donn√©es, en utilisant… ‚Ķ   Wikip√©dia en Fran√ßais

  • Theorie des codes ‚ÄĒ Th√©orie des codes En th√©orie de l information, la th√©orie des codes traite des codes et donc de leurs propri√©t√©s et leurs aptitudes √† servir sur diff√©rents canaux de communication. On distingue deux mod√®les de communication : avec et sans… ‚Ķ   Wikip√©dia en Fran√ßais


Share the article and excerpts

Direct link
… Do a right-click on the link above
and select ‚ÄúCopy Link‚ÄĚ

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.