Format De Données

ÔĽŅ
Format De Données

Format de données

Le format des données est la manière utilisée en informatique pour représenter des données sous forme de nombres binaires. C'est une convention (éventuellement normalisée) utilisée pour représenter des données, soit des informations représentant un texte, une page, une image, un son, un fichier exécutable, etc. Lorsque ces données sont stockées dans un fichier, on parle de format de fichier. Une telle convention permet d'échanger des données entre divers programmes informatiques ou logiciels, soit par une connexion directe soit par l'intermédiaire d'un fichier. On appelle interopérabilité cette possibilité d'échanger des données entre différents logiciels.

Sommaire

Typologie

On distingue un format dont la spécification est publiquement accessible, un format ouvert, d'un format fermé dont la spécification est secrète. Un format fermé correspond généralement à un logiciel seul capable de pleinement l'exploiter.

Une autre distinction s'opère entre un format normalisé, faisant l'objet d'une normalisation par une institution publique ou internationale (ISO, W3C) et un format quelconque, qui peut devenir un standard de fait s'il est populaire. Un tel format est parfois normalisé par la suite comme OpenDocument.

Un format est dit propri√©taire s'il a √©t√© √©labor√© par une entreprise, dans un but essentiellement commercial. Un format propri√©taire peut √™tre ouvert (le format PDF d'Adobe par exemple) s'il est publi√©, ou ferm√© (le format '.doc' de Microsoft par exemple). Mais m√™me lorsque des sp√©cifications sont rendues publiques, les entreprises √† l'origine de formats propri√©taires tentent d'en conserver le contr√īle √† la fois soit en proposant r√©guli√®rement de nouvelles versions plus √©labor√©es (contr√īle par maintien d'une avance technologique) soit en utilisant des moyens juridiques comme le brevet. Ce type de pratiques anti concurrentielles via des outils juridiques est admise aux √Čtats-Unis. Elle est sujette √† controverse en Europe (voir Brevetabilit√© du logiciel).

Formats des nombres

Nombres entiers

Un nombre entier naturel est en g√©n√©ral simplement repr√©sent√© en binaire (en base 2), avec la r√®gle de conversion classique. √Ä la diff√©rence des entiers naturels, les entiers informatiques sont finis. On ne peut donc repr√©senter ainsi que les nombres tenant dans l'intervalle d√©fini par le nombre de bits disponible. Lorsque l'on veut repr√©senter un entier relatif, on r√©serve un bit pour d√©signer le signe (en g√©n√©ral le bit le plus √† gauche) ; on parle alors d'¬ę entier sign√© ¬Ľ. La plupart du temps, les nombres n√©gatifs seront cod√©s selon la r√®gle du compl√©ment √† deux.

Par exemple, avec un octet on peut repr√©senter :

  • les entiers naturels de 0 (00000000 en binaire) √† 255 (11111111 en binaire)
  • les entiers relatifs de -128 (10000000 en binaire) √† -1 (11111111 en binaire) et de 0 (00000000) √† 127 (01111111) ; on code donc avec un octet les entiers de -128 √† +127.
Article d√©taill√© : Syst√®me binaire.

Nombres fractionnaires

Pour les nombres fractionnaires, la convention de num√©ration veut qu'en base n, ¬ę 0,a ¬Ľ d√©signe a¬∑1/n (=a¬∑n-1), ¬ę 0,0a ¬Ľ d√©signe a¬∑1/n¬≤ (=a¬∑n-2)... Par exemple en base 10 (n = 10), ¬ę 0,005 ¬Ľ d√©signe 5¬∑10-3.

Ainsi, le nombre 0,001 en binaire (n = 2) désigne 1·2-3=0,125.

Donc en informatique, la première solution consiste à attribuer un certain nombre de bits à droite aux puissances négatives de 2.

Une autre solution consiste √† consid√©rer les nombres comme des caract√®res (du texte), et √† utiliser par exemple le format ASCII. Cependant, cela ne peut concerner que le stockage : l'ordinateur ne pouvant appliquer que l'arithm√©tique binaire, il faut n√©cessairement les convertir en binaire pour le calcul.

Article d√©taill√© : Virgule flottante.

Formats de texte

Les textes sont formés de caractères en nombres finis (lettres, diacritiques, signes de ponctuation…). Il est donc simple d'attribuer un nombre à chaque caractère. Cette conversion caractère → nombre est définie par convention sous la forme d'une table, ou page de code. Les plus utilisés sont l'ASCII et l'Unicode.

Les textes comprennent aussi de la mise en page (alignement des paragraphes) et de la mise en forme (type de police de caract√®re, taille‚Ķ). La solution retenue en g√©n√©ral consiste √† d√©finir des mots de commande, des instructions, s√©par√©es du texte par un caract√®re sp√©cial. Ainsi, en HTML, les instructions sont appel√©es ¬ę balises ¬Ľ et sont mises entre des chevrons <‚Ķ> ; en LaTeX, les instructions sont introduites par une barre de fraction invers√©e \. De ce fait, certains caract√®res sont r√©serv√©s aux instructions et ne peuvent plus faire partie du texte ; il existe alors des ¬ę codes d'√©chappement ¬Ľ, ou bien des instructions sp√©ciales permettant de les repr√©senter.

Jusqu'en 2006, le logiciel Microsoft Word a retenu une autre mani√®re de stocker la mise en forme: les donn√©es (texte et images) sont mises en brut (sans mise en forme) dans le document, et la mise en forme est d√©finie dans une partie du document appel√©e ¬ę saut de section ¬Ľ (section break). Le saut de section, hormis le fait de marquer un changement de mise en page (saut de colonne, saut de page), est une zone invisible contenant des pointeurs attribuant un formatage √† une partie de la section. Cette solution de stockage brut des donn√©es a √©t√© historiquement adopt√©e √† une √©poque o√Ļ peu d'autres solutions existaient (au d√©but des ann√©es 1980). C'√©tait une approche couramment adopt√©e pour beaucoup d'applications et li√©e entre autres au niveau faible de standards de stockage. Cependant, l'exp√©rience a montr√© que cette approche se r√©v√®le tr√®s lourde et source de probl√®mes (corruption de documents) pour les documents tr√®s volumineux (proche ou sup√©rieur √† 100 pages). Si Microsoft a tent√© de conserver son mod√®le et de le faire √©voluer petit √† petit pour √©viter de tout reprendre √† la base, ce dernier est arriv√© aujourd'hui √† ses limites. Pour son √©dition de 2007, Microsoft a adopt√© un nouveau format propri√©taire, Open XML.

Formats d'image

La base de la représentation des images est la géométrie analytique.

Format carte de points

Exemple agrandi d'une image carte de points

On peut d√©couper une image en points √©l√©mentaires, ou ¬ę pixel ¬Ľ, et attribuer une couleur √† ce pixel. La couleur est repr√©sent√©e par un nombre, la correspondance couleur ‚Üí nombre √©tant faite par une ¬ę palette ¬Ľ.

Il est inutile de donner les coordonn√©es des points : si l'on donne la largeur de l'image en nombre n de points, alors les n premiers points repr√©sentent la premi√®re ligne, les points n+1 √† 2n repr√©sentent la deuxi√®me ligne‚Ķ Il suffit alors de fixer par convention l'ordre de balayage, en l'occurrence l'ordre de lecture occidental (de gauche √† droite et de haut en bas).

Ceci donne une image au format carte de points, souvent appel√©e image bitmap. C'est donc un canevas de points dont chacun se voit attribuer une valeur color√©e. Les grandes diff√©rences entre les formats existants sont la profondeur de couleurs (1 bit : noir ou blanc, 8 bits : 256 couleurs, 24 bits : 16 millions de couleurs‚Ķ) et le type de compression (sans compression, ou raw, avec une compression par motifs, avec une compression destructive‚Ķ)

Par exemple, prenons une carte noir et blanc (1 pour blanc, 0 pour noir) d√©finissant une image large de cinq points par la suite de chiffres suivante :

1000101010001000101010001

il faut d√©couper cette carte par groupes de 5 bits :

10001
01010
00100
01010
10001

ce qui nous donne le dessin d'un ¬ę X ¬Ľ blanc sur fond noir.

Le format des donn√©es doit donc inclure, outre la liste des points, la largeur de l'image et la description de la palette ; ceci se fait en g√©n√©ral en d√©but de fichier (on parle d'¬ę en-t√™te ¬Ľ de fichier).

Article d√©taill√© : Image matricielle.

Format vectoriel

Une image au format vectoriel est une image qui se décrit par des ensembles de coordonnées mathématiques et non par un canevas de points. Par exemple,

  • pour d√©crire une ligne il suffit de conna√ģtre ses coordonn√©es de d√©part et d'arriv√©e ;
  • pour un rectangle (ayant ses axes align√©s aux axes du syst√®me de coordonn√©es en cours), deux points suffisent aussi (deux coins oppos√©s)
  • pour un cercle, un seul point, ainsi qu'un rayon, sont n√©cessaires.

En outre, des informations sur le trac√© sont n√©cessaires : les attributs graphiques sont l'√©paisseur, le style (continu ou pointill√©s), la couleur du trait, sa transparence, etc.

Une image vectorielle est donc un ensemble de coordonnées, d'attributs et de commandes que le programme d'affichage (à l'écran ou sur papier) se charge d'interpréter.

Pour des images pouvant être réduites facilement à des formes géométriques (typographisme, cartographie...), le format vectoriel est extrêmement économe.

La particularit√© des formats vectoriels r√©side dans le fait que leur rendu final ne d√©pend que de la r√©solution du p√©riph√©rique de sortie. Ce type d'image peut aussi √™tre agrandi sans effets g√™nants  ; il n'y a pas d'effet de ¬ę pixellisation ¬Ľ (les lignes diagonales ou courbes n'apparaissent pas sous forme d'escalier).

Quelques formats vectoriels c√©l√®bres : SVG, Adobe PDF (Acrobat), Adobe Illustrator, encapsuled postscript EPS, Quark QXD, Macromedia Flash (format d'animation vectorielle), AutoCAD DXF.

Article d√©taill√© : Image vectorielle.

Représentation des couleurs

Article d√©taill√© : Codage informatique des couleurs.

Formats vidéo

Article connexe : Format vid√©o.

Format de scène 3D

La repr√©sentation des objets virtuels cr√©√©s par les logiciels de mod√©lisation 3D n√©cessite un format de donn√©es sp√©cifique car les formats pr√©c√©dents sont inadapt√©s. En effet, pour repr√©senter un objet 3D il faut au minimum une description :

  • de la topologie de l'objet : sa forme, sa taille et sa complexit√©
  • des attributs de repr√©sentation : couleurs, textures (nature et position), qualit√© photom√©trique de sa surface, transparence
  • de ses attributs dynamiques s'il est anim√© : capacit√© de collision avec d'autres objets, articulations et contraintes, etc.

Représenter une scène nécessite aussi de spécifier les éclairages utilisés, les positions relatives des objets, les effets d'environnement éventuels mais surtout sa structure hiérarchique (liens des éléments entre eux).

Les premiers formats standard de fait ont √©t√© des formats adapt√©s √† la CAO : l'objet est d√©fini √† l'aide de facettes ou de surfaces analytiques. Il suffit de d√©finir son origine puis les coordonn√©es caract√©ristiques des √©l√©ments dans l'espace √† 3 dimensions. Par exemple, dans le format DXF d'Autocad, un objet est une suite d'entit√©s nomm√©es et constitu√©es de liste de points X, Y, Z. Par indexation, on constitue des facettes triangles ou des lignes qui s'appuient sur ces points.

Si ce format était suffisant pour du dessin technique il était totalement inadapté à la réalité virtuelle. Dans les années 1990, la société Silicon Graphics (constructrice de station graphique 3D) publia le format Inventor qui comportait la majorité des éléments nécessaires. Ce format évolua vers le format VRML qui a été normalisé.

Par ailleurs, le format 3D Studio ASCII fut lui aussi publié mais l'explosion du marché de la 3D donna naissance à quantité de formats propriétaires. Pour l'utilisateur, le problème était fréquemment de convertir un modèle d'un format à l'autre sans perdre trop d'informations. Des sociétés se sont même spécialisées dans ce type de conversion.

Actuellement, dans le monde professionnel, il n'y a pas de format unique mais plut√īt des formats plus ou moins utilis√©s selon le type d'application. Par exemple :

  • format Blender pour la cr√©ation Multim√©dia
  • format Pro/Engineer pour la CAO industrielle
  • format OpenFlight pour la simulation de vol et/ou de conduite.

N√©anmoins, la plupart des modeleurs 3D savent plus ou moins bien lire (Import) et cr√©er (Export) plusieurs formats : c'est un crit√®re de choix important. Parmi les formats les plus r√©pandus on peut citer :

  • BLEND de Blender
  • 3DS
  • DXF d'Autocad
  • IGES normalis√©
  • X Direct 3D
  • OBJ de Wavefront
  • LWO de Lightwave
  • VRML avec ses versions (1, 2 et X3D)
  • .COB de Truespace

La tendance actuelle est de privilégier un format descriptif de type XML. Le format de données 3D est alors appelé langage descriptif comme X3D (évolution du VRML avec un formatage XML).

Le format libre COLLADA permet également d'échanger des données entre différents logiciels. Il existe notamment un importeur/exporteur pour Blender.

Format de son

Les formats de son se décomposent en trois parties:

  • les formats bruts: le son n'est pas compress√©, les valeurs issues de la conversion des valeurs analogiques en num√©rique (√©chantillonnage) sont enregistr√©es dans l'ordre chronologique et par canal;
  • les formats compress√©s: le son est compress√© avec ou sans pertes suivant un algorithme adapt√© √† la perception des sons de l'oreille humaine et/ou une compression classique;
  • les formats de flux (stream): permet l'√©coute par partie sans avoir la totalit√© du fichier.

(Voir le chapitre Formats classiques)

Compression des données

La compression des données est la technique qui consiste à transformer les données afin qu'elles prennent moins de place. Les données devant être décompressées avant d'être traitées, ceci se fait aux dépens de la rapidité, et avec un risque plus grand de perte de données.

L'idée de base est qu'en général, des éléments se répètent dans les fichiers. On a donc intérêt à représenter les éléments se répétant souvent par des nombres plus petits (c'est-à-dire prenant moins de bits).

On peut distinguer deux types de compression :

  • les compressions sans a priori sur les donn√©es : ce sont des algorithmes qui travaillent uniquement sur les nombres, quelle que soit l'information port√©e par ces nombres ; ils sont donc g√©n√©raux, pas sp√©cifiques aux donn√©es ; on peut distinguer :
    • les algorithmes √† table stock√©e : l'algorithme fait une premi√®re analyse pour rep√©rer les √©l√©ments se r√©p√©tant, et construit une table de correspondance avec un code raccourci pour chaque √©l√©ment r√©p√©titif ; la taille occup√©e par la table de stockage fait que ce proc√©d√© est plut√īt adapt√© aux gros fichiers ;
    • les algorithmes √† table construite √† la vol√©e : la table de correspondance est construite de mani√®re syst√©matique, sans analyse pr√©alable du fichier ; elle peut √™tre reconstruite √† la vol√©e √† partir du fichier compress√© ; c'est par exemple le cas de l'algorithme de Lempel-Ziv-Welch (LZW)
  • les compressions sp√©cifiques aux donn√©es : si l'on conna√ģt les donn√©es, on peut optimiser l'algorithme ; par exemple si l'on sait que l'on a affaire √† un texte, on peut se baser sur la fr√©quence d'utilisation des mots dans le langage ; on distingue deux sous-cat√©gories :
    • les compressions sans perte de qualit√© ;
    • les compressions avec perte de qualit√© : la premi√®re id√©e est de faire un ¬ę sous-√©chantillonnage ¬Ľ, c'est-√†-dire de simplement d√©grader la qualit√© des donn√©es
      en √©tudiant les sens et la mani√®re dont le cerveau interpr√®te les informations, on peut d√©grader certaines caract√©ristiques des donn√©es peu sensibles, donc sans trop alt√©rer la qualit√© globale des donn√©es ; ainsi, si l'oreille humaine est peu sensible √† certaines gammes de fr√©quences, on peut d√©grader (voire supprimer) certaines parties du spectre et pas d'autres ;
      les algorithmes de compression d'image et de film JPEG et MPEG utilisent une perte de qualité.
Article d√©taill√© : Compression de donn√©es.

Formats classiques

Formats de fichiers
Catégorie Formats
Images PNG, MNG, TIFF, JPEG, GIF, TGA, OpenEXR, BMP
Dessin vectoriel SVG, Flash, AI, EPS, DXF
3D XCF, BLEND, DXF, 3DS Max, VRML, X3D, IFC
Son OGG, FLAC, MP3, WAV, WMA, AAC
Vidéo MPEG, OGM(DVD, DivX, XviD), AVI, Theora, FLV
Page PDF, PostScript, HTML, XHTML
Document de traitement de texte ODT, TXT, DOC, RTF
Exécutable BIN, ELF, EXE
Archives (fichier compressé) 7Z, TAR, GZIP, ZIP, LZW, ARJ, RAR
Archives pour bandes dessinées CB7 (.cb7), basé sur 7z
CBA (.cba) basé sur ACE
CBR (.cbr) basé sur RAR
CBT (.cbt), basé sur TAR
CBZ (.cbz), basé sur ZIP

Voir aussi

Liens externes

Ce document provient de ¬ę Format de donn%C3%A9es ¬Ľ.

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Format De Données de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Format de donnees ‚ÄĒ Format de donn√©es Le format des donn√©es est la mani√®re utilis√©e en informatique pour repr√©senter des donn√©es sous forme de nombres binaires. C est une convention (√©ventuellement normalis√©e) utilis√©e pour repr√©senter des donn√©es, soit des… ‚Ķ   Wikip√©dia en Fran√ßais

  • Format des donn√©es ‚ÄĒ Format de donn√©es Le format des donn√©es est la mani√®re utilis√©e en informatique pour repr√©senter des donn√©es sous forme de nombres binaires. C est une convention (√©ventuellement normalis√©e) utilis√©e pour repr√©senter des donn√©es, soit des… ‚Ķ   Wikip√©dia en Fran√ßais

  • Format de donn√©es ‚ÄĒ Le format des donn√©es est la mani√®re utilis√©e en informatique pour repr√©senter des donn√©es sous forme de nombres binaires. C est une convention (√©ventuellement normalis√©e) utilis√©e pour repr√©senter des donn√©es des informations repr√©sentant un… ‚Ķ   Wikip√©dia en Fran√ßais

  • format des donn√©es ‚ÄĒ duomenŇ≥ bazńós struktŇęra statusas T sritis automatika atitikmenys: angl. database structure vok. Datenbankstruktur rus. —Ā—ā—Ä—É–ļ—ā—É—Ä–į –Ī–į–∑—č –ī–į–Ĺ–Ĺ—č—Ö, f pranc. format des donn√©es, m; structure des donn√©es, f ‚Ķ   Automatikos terminŇ≥ Ňĺodynas

  • Format de donn√©es ouvert ‚ÄĒ Format ouvert Un format ouvert, ou sp√©cification ouverte, est un format de donn√©es interop√©rable et dont les sp√©cifications techniques sont publiques et sans restriction d‚Äôacc√®s ni de mise en Ňďuvre, par opposition √† un format ferm√©. Sommaire 1… ‚Ķ   Wikip√©dia en Fran√ßais

  • ACIS (format de donn√©es) ‚ÄĒ ACIS Pour les articles homonymes, voir Acis (homonymie). 3D ACIS¬ģ ‚Ķ   Wikip√©dia en Fran√ßais

  • Format de donn√©e ‚ÄĒ Format de donn√©es Le format des donn√©es est la mani√®re utilis√©e en informatique pour repr√©senter des donn√©es sous forme de nombres binaires. C est une convention (√©ventuellement normalis√©e) utilis√©e pour repr√©senter des donn√©es, soit des… ‚Ķ   Wikip√©dia en Fran√ßais

  • Format de fichier ‚ÄĒ Format de donn√©es Le format des donn√©es est la mani√®re utilis√©e en informatique pour repr√©senter des donn√©es sous forme de nombres binaires. C est une convention (√©ventuellement normalis√©e) utilis√©e pour repr√©senter des donn√©es, soit des… ‚Ķ   Wikip√©dia en Fran√ßais

  • Format informatique ‚ÄĒ Format de donn√©es Le format des donn√©es est la mani√®re utilis√©e en informatique pour repr√©senter des donn√©es sous forme de nombres binaires. C est une convention (√©ventuellement normalis√©e) utilis√©e pour repr√©senter des donn√©es, soit des… ‚Ķ   Wikip√©dia en Fran√ßais

  • Format Ouvert ‚ÄĒ Un format ouvert, ou sp√©cification ouverte, est un format de donn√©es interop√©rable et dont les sp√©cifications techniques sont publiques et sans restriction d‚Äôacc√®s ni de mise en Ňďuvre, par opposition √† un format ferm√©. Sommaire 1 D√©finition 2… ‚Ķ   Wikip√©dia en Fran√ßais


Share the article and excerpts

Direct link
… Do a right-click on the link above
and select ‚ÄúCopy Link‚ÄĚ

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.