Les formats

Les formats

⊕ Viviane Boulétreau, Benoît Habert, « Les formats », dans Michael E. Sinatra, Marcello Vitali-Rosati (dir.), Pratiques de l’édition numérique (édition augmentée), Presses de l’Université de Montréal, Montréal, 2014, isbn : 978-2-7606-3592-0, https://www.parcoursnumeriques-pum.ca/1-pratiques/chapitre9.html.
version 1, 01/03/2014
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

Les contenus numériques sont, par nature, encodés. Pour pouvoir être partagée, une information doit être structurée selon des standards : les formats. Le choix d’un format a des implications profondes : les informations que l’on peut transmettre changent, ainsi que leur lisibilité, leur universalité, leur agencement, leur transportabilité, leur transformabilité, etc. Qu’est-ce qu’un format ? Lequel choisir ? Pour quel usage et pour quelle pérennité ? Ce chapitre propose une présentation éclairante de cette notion.

Les formats : invisibles ou pénibles

Il en va des formats informatiques comme des dimensions des roues de nos voitures : nous ne nous y intéressons que lorsque contraints et forcés. Pour les roues, quand il nous faut par exemple leurs dimensions pour acheter des chaînes pour la neige. Pour les formats informatiques, quand « ça ne marche pas ». L’objectif de ce chapitre est de comprendre, essentiellement pour les documents textuels dans la version papier, ainsi que pour les photos et les vidéos à la fin de cette version numérique enrichie, comment ça marche, pour prévenir les problèmes ou être capable de les résoudre.

Les formats nous sont le plus souvent invisibles ou presque. Lorsque nous cliquons ou double-cliquons sur un nom de fichier dans un dossier, sur une icône de pièce jointe dans un courriel, sur un lien dans une page en ligne, quand nous saisissons une adresse (URL)URL : Uniform Resource Locator. Pour en savoir plus, voir « Les protocoles d’Internet du web » par Jean-Philippe Magué.↩︎ dans un navigateur, « il se passe quelque chose », qui est le plus souvent approprié. Nous visionnons un film, nous entendons de la musique, nous visualisons une image, nous lisons un texte qui peut d’ailleurs « contenir » du son, de l’image, de la vidéo. Il y a donc un mécanisme qui associe au format de chaque document un outil adapté. Ce mécanisme apparaît d’abord quand l’application (le navigateur, le système d’exploitation) effectue un diagnostic – elle fait l’hypothèse que le document relève d’un format déterminé – et qu’elle nous propose éventuellement d’utiliser un certain outil pour ce document et pour tous les autres du même format. Ce mécanisme apparaît également quand l’application ne trouve pas d’outil adéquat. Elle nous demande alors de chercher sur l’ordinateur utilisé l’outil nécessaire ou de l’installer. Notre ordinateur utilise donc un mécanisme de détection de format et maintient un « dictionnaire » évolutif associant à un format l’outil à utiliser. On comprend en passant qu’un format peut parfois être utilisé par plusieurs outils.

L’outil qui peut traiter un format change au fil du temps. De nouvelles versions surviennent. Le décalage de version entre celle nécessaire et celle de l’outil peut gêner dans les deux directions. Une ancienne version d’un logiciel peut ne pas prendre en compte un nouveau format. Inversement, une version peut être incapable d’interagir avec un format trop ancien.

Dans la plupart des cas, tout se passe bien. Nous obtenons une interaction normale. Il y a adéquation entre l’outil utilisé et ce qui lui est fourni. Nous pouvons aussi être confrontés à des comportements plus ou moins bizarres, à des dérèglements. L’outil peut enfin se révéler incapable de traiter ce dont il a la charge. Il peut même se « bloquer », voire bloquer l’ordinateur.

Un format : une mise en (bonne) forme de données

Le mot « fromage » vient de « formage », de mettre en forme (une pâte grâce à un moule). On en garde la trace dans le mot « fourme ». De la même manière, un format, c’est quelque chose qui met en forme d’une manière conventionnelle des données destinées à représenter du texte, du son, de l’image, de la vidéo, ou une combinaison des quatre. C’est une sorte de « gabarit » qui met certaines données à des endroits déterminés. Les outils qui vont traiter ce format s’attendent à trouver tel élément à tel endroit, organisé de telle manière, et tel autre à un autre endroit, organisé d’une autre façon.

Prenons l’exemple des pages web. Elles relèvent de la famille de formats HTML. La première ligne d’une page web au format HTML (<!DOCTYPE html>) indique le choix fait quant à la famille (exemple : HTML5Le HTML5 est, en 2014, la version la plus avancée du langage HTML (HyperText Markup Language), développée par le WHATWG (Web Hypertext Application Technology) et le W3C.↩︎).

<!DOCTYPE html>
  <html lang="fr" />   
    <head>   
        <meta charset="utf-8" />   
        <title>Un loup étrange 1</title>   
        <link rel="stylesheet" href="LoupEtrange1.css" />   
    </head>   
    <body>   
        <article>   
         <blockquote>    
              <q>
              Le loup a posé sa tête sur les genoux du Petit Chaperon Rouge.
              Elle lui gratte doucement le crâne.
              Il neige au bord du lac.</q>  
         </blockquote>  
         <p class="reference">Gilbert Lascault <em>Le petit chaperon rouge dans tous ses états</em>
         Seghers, 1989, p. 36</p>   
       </article>
   </body>
   </html>

Le format HTML repose sur des couples de balises ouvrantes – comme <title> – et fermantes – comme </title> – qui constituent des « boîtes » attendant chacune un certain type d’information. Ce qui est dans la boîte « title » est utilisé ainsi par le navigateur pour donner un titre à l’onglet dans lequel est affichée la page. Ce qui est dans la boîte « em » est rendu par des italiques. Une boîte peut contenir une ou plusieurs autres boîtes : la boîte « HTML » contient les boîtes « head » et « body ». Une boîte peut contenir également du texte, ou bien être vide : il n’y a alors qu’une seule balise, avec une oblique avant le chevron fermant. La balise ouvrante d’une boîte peut comporter une ou plusieurs associations, marquées par le signe =, entre un attribut et une valeur. Ces associations permettent de spécifier davantage l’utilisation à faire des informations de la boîte. Le format HTML autorise seulement un certain nombre de boîtes et certains types d’inclusion des boîtes entre elles : la boîte « head » ne peut pas contenir une boîte « body ». La conformité avec le format HTML passe par trois volets, de plus en plus exigeants. Si le document est bien fait de boîtes incluses les unes dans les autres, sans « débordements », avec une seule boîte globale, le document est dit « bien formé ». A contrario, si la boîte « title » n’est pas fermée, toutes les autres boîtes du document y sont incluses et le navigateur n’arrive pas à afficher quoi que ce soit.

<title>Un loup étrange 1   
  <link rel="stylesheet" href="LoupEtrange1.css" />

Si le document emploie les bons types de boîtes dans les bonnes relations d’inclusion, c’est une « page HTML valide ». Si les contenus des boîtes correspondent à leur fonction, c’est une « page HTML cohérente ». Ce ne serait pas le cas si était mis dans la boîte « title » le contenu de la page.

L’outil qui traite un document censé relever d’un certain format commence par vérifier que le format est effectivement respecté. De très petites erreurs de mise en forme peuvent rendre le document inutilisable par l’outil qui le signale ou qui « abandonne la partie » plus ou moins doucement. Inversement, certains outils sont plus tolérants. C’est le cas des navigateurs qui doivent faire face à la maîtrise plus ou moins grande des formats HTML. Ainsi, la modification de la boîte englobante de HTML en HTM ne trouble pas certains navigateurs qui affichent le même résultat.

<htm lang=" fr" />

Les formats : des clauses cachées au contrat explicite – standards et normes

On distingue plusieurs catégories de formats :

Les « formats propriétaires » : leurs spécifications techniques sont contrôlées par une entité privée et ont en général fait l’objet d’un brevet. Leur usage est donc limité.
- Ces spécifications ne sont pas diffusées, on parle alors de « format opaque » ; les données ne peuvent donc être utilisées que par leur application d’origine, ce qui pose de nombreux problèmes de compatibilité et de portabilité.
- Ces spécifications ont été publiées, mais sont associées à des autorisations d’utilisation liées aux brevets. Dans ce cas, les données sont la plupart du temps exploitables par d’autres applications, mais le risque de perte d’information existe et ne doit pas être négligé.
Les « formats libres ou ouverts » : leurs spécifications techniques sont publiques et il n’y a pas de restriction d’accès ou de mise en œuvre. Chaque éditeur de logiciel peut donc librement proposer les modules permettant de lire ou d’écrire des données selon ces formats.

L’ancien format .doc de Microsoft Word relevait des formats propriétaires opaques, l’actuel format .docx de Microsoft Word ou le format PDF (Adobe) sont des formats propriétaires publiés, tandis qu’HTML est un format ouvert, spécifié par le consortium qui gère le web, W3CPour en savoir plus sur le World Wide Consortium (W3C), voir « D’Internet au web » par Alain Mille.↩︎.

Un format occupe en fait un des stades du processus de normalisation mis en œuvre au sein de chaque communauté. À partir des bonnes pratiques observées et des « standards de fait » que l’on voit régulièrement émerger, des instances collégiales spécialisées (comités techniques) s’organisent afin d’élaborer un ensemble de référentiels communs : des « normes explicites ». Dans le domaine du document numérique, trois instances principales assurent la gestion des processus de normalisation : l’International Organization for Standardization (ISO), organisme international composé des représentants des organisations nationales (Standards Council of Canada – Conseil canadien des normes ; AFNOR pour la France) ; l’Organization for the Advancement of Structured Information Standards (OASIS), centrée sur la normalisation des formats de fichiers ; le World Wide Web Consortium (W3C), centré sur le webEn savoir plus sur l’International Organization for Standardization (ISO), le Standards Council of Canada – Conseil canadien des normes, l’Association Française de Normalisation (AFNOR), l’Organization for the Advancement of Structured Information Standards (OASIS) et le W3C.↩︎. À l’inverse, certains types de documents ne disposent pas (encore) de formats partagés facilitant l’échange et la reprise. C’est le cas des blogs comme DrupalPour en savoir plus sur Drupal, voir aussi « L’organisation des métadonnées » par Grégory Fabre et Sophie Marcotte.↩︎ ou WordPressWordPress est une plateforme de blogs et un CMS (Content Management System).↩︎.

L’exemple le plus représentatif de format ayant fait l’objet d’une procédure de normalisation est PDF. Né en 1993, le Portable Document Format de la société Adobe Systems avait l’avantage de préserver la mise en page des documents, quelle que soit la plateforme de lecture, son système d’exploitation, etc. Il s’agissait, alors, du seul format ayant cette propriété. Il offrait également des options de sécurisation qui, à une époque où la circulation et le partage de documents n’étaient pas aussi naturels qu’ils le sont devenus, l’ont rendu très attractif. La politique commerciale d’Adobe consistant à distribuer gratuitement l’outil de lecture, à commercialiser à des tarifs très raisonnables les applications permettant de générer des fichiers au format PDF et à autoriser des applications tierces à utiliser – gratuitement – le format, a fait le reste. Ce format est devenu le « standard de fait » pour l’échange de documents. À partir des années 2000, quatre sous-ensembles du format PDF ont fait l’objet d’une normalisation par l’ISO, dont PDF/A dans une perspective de pérennisation.

Dans ces processus de normalisation, XML occupe un rôle central. Ce n’est pas un format, mais un métalangage qui permet de définir pour un ensemble de documents donné la « forme » qu’ils doivent suivre : les types d’informations possibles (les boîtes) et les relations entre eux (les relations d’inclusion ou de succession). Cette forme se matérialise par des balises, comme pour HTML. XML permet d’associer à la définition d’un format des outils de validation qui permettent de certifier qu’un document suit bien les conventions du format. Recourir à XML, c’est donc expliciter le contrat que constitue un format et permettre de vérifier son respect. Les formats OpenDocument et Office Open XML des suites bureautiques d’Open Office et de Microsoft Office reposent ainsi sur XML.

Documents autonomes ou dépendants, documents composites

Un document réalisé sous un certain format peut comporter tous les éléments pour être « reconstruit » sur un autre poste de travail. Il peut également faire référence à des « ressources ». Si celles-ci ne sont pas transmises avec le document, la reconstruction de ce dernier va être plus ou moins dégradée. C’est par exemple le cas si le fichier HTML est transmis sans la feuille de style qui indique la mise en page à appliquer et qui est appelée dans une des lignes de code.

:lang(fr) > q {
  quotes: '«  ' '  »' '"' '"';
  }

  blockquote {text-indent : 2em ;}

  .reference {
  opacity : 0.5 ;
  text-indent : 8em ;
   }

Ou dans un document PDF, lorsque les polices de caractères n’ont pas été intégrées au moment de sa fabrication et que le poste de travail sur lequel est visualisé le document ne dispose pas de la police appropriée. Les caractères manquants sont alors remplacés par d’autres caractères. L’auteur, s’il n’est pas dûment averti de l’existence de ressources secondaires et de leur caractère nécessaire, risque fort de ne pas les sauvegarder, d’omettre de les transmettre et de rendre son document peu lisible.

Contrairement à l’approche initiale consistant à fusionner en un seul fichier, sous un seul format, des constituants de nature différente, les outils actuels privilégient un agrégat de formats élémentaires dédiés à chaque ressource composant un document. Le document lui-même se trouve alors transformé en container, permettant de regrouper et de manipuler un ensemble de ressources hétérogènes : textes, images, éléments de mise en forme, sons, objets mathématiques, etc. C’est le cas des formats OpenDocument, Office Open XML, ePubPour en savoir plus sur le format ePub, voir « Le livrel et le format ePub » par Fabrice Marcoux.↩︎, PDF… Ces différents formats sont en général massivement basés sur XML et ils reposent sensiblement sur les mêmes formats standard pour le stockage des ressources élémentaires. La plupart utilisent la notion d’archive (format ZIP, RARZIP et RAR sont deux formats de fichiers permettant la compression de données.↩︎…) pour regrouper en un seul fichier l’ensemble des ressources qui constituent le document. Enfin, un certain nombre d’éléments communs se retrouvent quel que soit le format envisagé : un groupe de métadonnées, le plus souvent exprimées en XML, donnant des informations de type documentaire, des informations liées à l’application, mais également liées aux licences d’utilisation du document ; un catalogue listant les ressources composant le document en donnant leur typologie (éventuellement complétée d’informations applicatives) ; une structure décrivant l’organisation des ressources les unes par rapport aux autres en matière d’ordonnancement et de hiérarchie. Ces nouveaux formats préservent, pour chaque constituant, le moyen de stockage le plus riche possible. Le recours à XML et à la validation systématique par rapport à des modèles standard confère un caractère pérenne à chaque ressource prise indépendamment. La migration d’un format à l’autre se réduit à une somme de migrations élémentaires.

Jeux de caractères : les formats des données textuelles

Un fichier numérique est une suite de bits, c’est-à-dire de 0 et de 1. Le format spécifie comment interpréter cette suite de 0 et de 1. Un texte est d’abord une suite de caractères. Le flux de bits est découpé en octets, en séquences de 8 bits. Un octet correspond à 2⁸ combinaisons possibles de 0 et de 1, c’est-à-dire à 256 nombres en notation binaire (de 0 – 00000000 – à 255 – 11111111). Chaque nombre est interprété comme un numéro d’ordre dans un jeu de caractères. Le a minuscule a le numéro 95 (1100001). Les caractères consécutifs ont des numéros consécutifs (96 pour b, etc.). Certains caractères sont « invisibles », comme les deux qui peuvent servir au changement de ligne et qui sont empruntés au fonctionnement des machines à écrire : passage à la ligne (faire tourner le rouleau d’un cran – line-feed – caractère 10 – symbolisé par l) et retour-chariot (ramener le rouleau à son point de départ – carriage-return – 13 – r). Le premier jeu de caractères standardisé, en 1963, est l’ASCII (American Standard Code for Information Interchange)Voir la table de l’ASCII (American Standard Code for Information Interchange).↩︎. Il note (code) 128 caractères sur 7 bits (le 8e est à 0). Comme son nom l’indique, il permet de coder l’américain et d’échanger des documents en américain ou en anglais. Il est insuffisant pour noter les langues comprenant des caractères autres, comme les caractères accentués français. Une deuxième étape a été d’utiliser 256 positions (8 bits), en gardant l’ASCII pour les 128 premières, et en utilisant le reste pour d’autres caractères. Mais comme 256 positions ne suffisent pas à toutes les langues occidentales, les 128 positions autres que l’ASCII ont donné lieu à des jeux de caractères reliés mais partageant le noyau ASCII. C’est la famille ISO 8859, standardisée par l’ISO. La branche ISO 8859-1 ou Latin 1 permet de noter le français (sauf pour les caractères Œ, œ, Ÿ, et le signe €) et d’autres langues occidentales. La nécessité de pouvoir échanger en mêlant des textes de plusieurs langues et en intégrant des langues aux jeux de caractères très larges (comme le japonais ou le chinois) a conduit plus récemment à la mise au point du standard Unicode. Il utilise 1 114 112 positions possibles et représentait en janvier 2012 une centaine de scripts qui totalisaient 100 181 caractères. Les scripts sont des collections cohérentes de caractères en usage dans un domaine particulier. Ils incluent les symboles monétaires, les opérateurs mathématiques, le braille, etc. À chaque caractère sont associées des propriétés : opposition majuscules/minuscules ou « casse » ; place dans le tri – le é en français doit être trié avec le e et non mis après le z ; direction d’écriture, de gauche à droite ou de droite à gauche. Unicode reprend comme noyau Latin 1 et donc aussi l’ASCII. Pour représenter le million de positions possibles en « économisant » les octets, on a souvent recours au format UTF, qui utilise de 1 à 4 octets pour fournir la position d’un caractère. Les caractères les plus fréquents, ceux de l’ASCII, sont codés sur un octet. Les caractères accentués du français sont codés sur 2 octets. On le comprend par exemple lorsqu’un fichier HTML obéit au format UTF-8 tandis que le navigateur attend de l’ISO Latin 1. Les lettres accentuées sont alors remplacées par deux caractères « bizarres ». À l’inverse, lorsque le fichier HTML est en ISO Latin 1 et que le navigateur attend de l’UTF-8, celui-ci remplace les lettres accentuées par une marque conventionnelle de « gêne ». On peut faire en sorte que le navigateur utilise un autre jeu de caractères que celui défini dans ses préférences ou changer ces dernières.

On parle parfois de format texte (seul), c’est-à-dire d’un ensemble de caractères sans indications de mise en forme. Pour pouvoir utiliser un fichier au format texte, il faut connaître le jeu de caractères qu’il utilise et aussi la manière dont il matérialise les changements de ligne. Historiquement, le monde Windows utilisait la suite retour-chariot/passage à la ligne, tandis que l’univers Mac se contentait du seul retour chariot, et le monde Linux/Unix du passage à la ligne. Confrontés à un fichier texte seul, les traitements de texte actuels proposent souvent, si nécessaire, de convertir le fichier pour qu’il utilise les conventions qui sont les leurs. Un autre format textuel courant est CSV pour Comma Separated Values. C’est une manière au départ de représenter des tableaux de nombres en séparant les colonnes par des virgules (commas), puisqu’en anglais le point est le séparateur décimal, et les lignes par des changements de ligne. Pour le français, c’est alors souvent la tabulation (caractère 9 – t) qui sépare les colonnes, la virgule étant le séparateur décimal. Les tableurs importent ou exportent des données au format CSV.

Quand on copie une portion de document dans une application (navigateur, par exemple) et qu’on la colle dans une autre (traitement de texte ou courriel, par exemple), via une zone d’échange appelée « tampon », le format de ce qui est copié peut être plus ou moins conservé. Si le maintien du format compte, on utilisera plutôt les fonctions de conversion explicite (en import ou en export) des logiciels en question.

Quels formats pour quels usages ?

Les formats sont le plus souvent invisibles : nos actions suffisent en général à mobiliser ceux qui nous servent. Ils sont en fait trop souvent invisibles : le choix est fait « à notre insu », sans qu’aient toujours été pesées les contraintes à respecter en fonction de l’usage à faire du document en question, maintenant et plus tard.

« Consommation » ou modification : le document doit-il seulement être affiché ? Doit-il également être imprimé et, si oui, la mise en page doit-elle impérativement être conservée ? Lors des utilisations futures, est-il supposé être modifié ? Seulement par son auteur ou par d’autres personnes ? Si oui, doit-on garder un historique de ces modifications ? PDF est préférable dans les deux premiers cas, OpenDocument ou .docx pour les suivants, avec les possibilités de suivi de révision qu’ils offrent.
Public visé : à qui est destiné le document ? L’auteur sera-t-il son seul utilisateur, ou bien d’autres personnes seront-elles amenées à le manipuler ? Les futurs utilisateurs sont-ils a priori connus ou non ? Connaît-on la nature des dispositifs (matériel et applications) que le public visé utilisera, connaît-on son degré de maîtrise de ces outils ? Par exemple, il est tout à fait normal d’échanger des fichiers sous un format très spécifique destiné à une application particulière avec des collègues de travail dont on sait qu’ils sont équipés pour les exploiter. Inversement, un CV à un futur employeur devra impérativement être transmis sous le format le plus répandu et le plus simple d’utilisation possible.
Mode de transmission : le vecteur utilisé pour transmettre (réseau : site web, FTPPour en savoir plus sur le FTP (File Transfert Protocol), voir « Les protocoles d’Internet et du web » par Jean-Philippe Magué.↩︎, courriel ; support physique mobile : disque, clé USB) peut amener à privilégier un format par rapport un autre. Un document PDF est ainsi souvent plus « léger » que le document Word ou PowerPoint source.
Durée de vie du document : pendant combien de temps doit-il être utilisable ? Quelques jours ? Quelques semaines ? Doit-il être exploitable sur du plus long terme comme un document administratif pour lequel on considère qu’une dizaine d’années est la durée de vie « légale » ? Dans ce cas, on utilisera le format PDF/A conçu dans cette optique.

Nos objectifs, une fois correctement énoncés, nous permettent la plupart du temps de choisir une famille de formats. Les contraintes techniques, économiques, les choix politiques, les usages d’une communauté suffisent à affiner ce premier tri. Aussi ne sommes-nous pas toujours aussi libres que nous pourrions le souhaiter. En nous plaçant délibérément dans un contexte moins contraint, deux critères complémentaires peuvent nous aider à choisir le format adéquat.

Interopérabilité : elle est essentielle non seulement si l’objectif est de partager un document avec d’autres utilisateurs, mais également dans une perspective de préservation sur la durée, puisqu’elle permettra d’exploiter un document avec d’autres dispositifs si celui d’origine devenait obsolète. Deux approches sont possibles : l’une basée sur le dispositif consiste à vérifier que, même s’il fonctionne de préférence avec un format qui lui est propre, il est capable de lire et de produire des formats dits d’échange (comme CSV pour les tableaux, PDF, etc.), en garantissant une perte d’information minimale. Cette approche est généralement privilégiée lorsqu’il s’agit de documents spécifiques et que les outils mis en œuvre disposent de fonctionnalités très particulières (publication assistée par ordinateur – PAO –, dessin technique, outils de traitement du signal, etc.). La seconde consiste à choisir d’abord un format gage d’interopérabilité, puis le dispositif qui permettra de le manipuler. Un tel format devra être au moins un standard de facto, voire une norme. On privilégiera bien entendu les formats les plus ouverts possible afin de préserver un minimum de liberté dans le choix du dispositif.
Pérennité : cette préoccupation doit être présente à l’esprit dès la création du document. L’utilisation de formats et de dispositifs disposant d’une solide communauté d’utilisateurs est également un facteur à prendre en compte pour la gestion à long terme des documents. En effet, au-delà du choix du format initial, la préservation des documents suppose une veille constante afin de pouvoir opérer les migrations de support, de format ou d’application chaque fois que l’obsolescence de l’un de ces éléments est signalée.

Les formats images

La problématique pour le stockage des images sous forme numérique est assez proche de celle que nous avons décrite pour les documents et il convient de se poser les mêmes questions : usage des fichiers (création, échange, stockage), préservation des informations (court terme, long terme), etc.

La plupart des solutions commerciales dédiées à la création et au traitement des images proposent un format qui leur est propre, mais toutes sont également aptes à lire et à écrire un certain nombre de formats standard. Ce sont ces formats qui sont en général utilisés pour la conservation, l’échange et la diffusion des images que nous allons décrire.

De façon générale, on distingue deux types de formats d’images :

Les formats matriciels (on parle aussi de bitmap ou de format adressable) dans lesquels sont stockées les informations sur chaque pixel (point) de l’image. L’image est considérée comme une matrice (un tableau) de points (ou pixels) ayant chacun une couleur. Elles sont utilisées pour stocker des images simples.
Les formats vectoriels permettent d’enregistrer différents types d’information permettant de reconstruire l’image (information sur les courbes et les lignes qui la composent, algorithmes des transformations qu’elles ont subies, zones de texte, etc.). Ces formats permettent de stocker des images complexes. On notera qu’ils permettent également un changement d’échelle immédiat ainsi qu’une meilleure impression.

Description des formats :

Format	Type de format	Type d’image	Compression	Avantage(s)	Inconvénient(s)	Usage recommandé
BMP (BitMap)	Format propriétaire de Microsoft	Matricielle, 16 M de couleurs	Non	- Qualité des images	- Fichiers très volumineux - Peu disponible en dehors des outils Microsoft	Format historique (déprécié)
PICT (Picture)	Format des plateformes MacOs	Matricielle, 16 M de couleurs	Non	-Qualité des images	- Fichiers volumineux - Uniquement pour MacOs	Format historique (déprécié)
GIF (Graphical Interchange Format)	Format propriétaire de la société Compuserve	Matricielle, Palette de 256 couleurs	Automatique	- Poids des fichiers -Supporte les animations	- Limitation de la palette	Principal format du web jusqu’au milieu des années 2000. Emploi en recul
JPEG (Joint Photographic Experts Group)	Format libre	Matricielle, 16 M de couleurs	Avec perte Taux de compression défini par l’utilisateur	- Poids des fichiers - L’utilisateur définit lui-même le ratio poids/qualité qu’il juge souhaitable	- Perte d’information : un fort taux de compression entraîne une forte dégradation de la qualité	Échange de fichiers Diffusion web
JPEG 2000	Évolution de JPEG, libre	Matricielle, 16 M de couleurs	Adaptative (ondelettes)	- La compression détériore moins l’image que le JPEG - Gestion des métadonnées - Perte d’information	Échange de fichiers	Diffusion web
TIFF (Tagged Image File Format)	Format propriétaire Brevet Aldus	Matricielle, 16 M de couleurs	Automatique, sans perte (LZW)	- Pas de perte d’information, maintien de la qualité	- Poids (gain de 25% environ) - Nombreuses versions de ce format (entraîne des problèmes de compatibilité)	Stockage et archivage de photos PAO et imprimerie
PNG (Portable Network Graphic)	Format libre et normé	Matricielle, 16 M de couleurs	Automatique, sans perte	- Maintien de la qualité - Poids des fichiers (compression très performante) - Gestion de la transparence (fusion d’images)		Stockage et archivage de photos PAO et imprimerie Diffusion web (pour de petites images)
PS/EPS (Encapsulated PostScript)	Format propriétaire Adobe	Hybride matriciel et vectoriel	Non	- Exploitable sur toutes les plateformes	- TRÈS lourd	Impression professionnelle
SVG (Scalable Vector Graphics)	Format libre	Format XML vectoriel	Non	- Fichier texte (léger) - Gestion de la transparence, animation	- N’est pas encore supporté par tous les outils (plugin souvent nécessaire)	Format émergeant (lentement)

À titre d’illustration, le tableau suivant donne le poids des fichiers correspondant à une même image initiale d’une taille de 975 par 900 pixels, en 16 millions de couleurs :

Image non dégradée

Pivoine.bmp : image non dégradée au format BMB (2574Ko)	Pivoine.tif : image non dégradée au format TIF (1072ko)	Pivoine.png : image non dégradée au format PNG (921ko)

Image dégradée

Pivoine.gif : image dégradée au format GIF (467ko)	Pivoine.jpg : image dégradée au format JPG, compression minimale (569ko)	Pivoine.jpg : image dégradée au format JPG, compression intermédiaire (128Ko)	Pivoine.jpg : image dégradée au format JPG, compression forte (43Ko)

De façon générale :

Lorsqu’on manipule des images, il est souhaitable de conserver une version dont la qualité est optimale aussi longtemps que possible. On sauvegarde et on manipule des images de bonne qualité (TIF, PNG) et on n’utilisera un format entraînant une dégradation (notamment compression avec perte) qu’en toute fin de traitement pour générer les fichiers qui seront mis en ligne, envoyés par courriel, etc.
Cela n’a rien à voir avec les formats de fichiers, mais un rappel est toujours utile : il est souhaitable d’effectuer des copies des images en haute résolution (CD-Rom, DVD, disque externe) pour toutes les données susceptibles d’être conservées.

Les formats vidéo et multimédia

Pour mieux appréhender les formats vidéo ou multimédia, il est nécessaire de comprendre leur constitution.

Leur construction permet de gérer en parallèle différents flux qui peuvent être de nature différente :

Le flux vidéo (séquence d’images), avec ou sans compression, compression image par image ou calculée sur des séquences, etc.
Le flux audio, avec une qualité d’échantillonnage plus ou moins élevée, une compression avec ou sans perte, etc.
D’autres flux textuels tels que l’audio-description, les sous-titres, les flux dédiés à l’indexation ou l’annotation, le chapitrage, etc.

La manipulation de données multimédia fait, le plus souvent, intervenir deux notions distinctes : le conteneur et le (ou les) codec(s). Un codec est un dispositif qui permet l’encodage et le décodage de chacun des fluxLe mot codec est un mot-valise qui vient de l’anglais code-decode (« codage-décodage »).↩︎. Pour constituer un « fichier multimédia », tous ces flux gérés de façon autonome sont stockés (encapsulés) dans un conteneur commun qui assure en outre leur synchronisation.

L’association conteneur et codec est souvent définie par défaut, au point qu’on les confonde très souvent, mais certains conteneurs sont dits « polyvalents » et peuvent associer de très nombreux formats de flux.

Un fichier multimédia est donc caractérisé par la donnée de trois informations principales : le conteneur, le codec vidéo et le codec audio.

Les principaux formats conteneur

ASF est le conteneur propriétaire de Microsoft (il est associé au format vidéo WMV).
AVI (Audio Video Interleave) a été mis au point par Microsoft. Les canaux audio et vidéo sont gérés séparément. C’est un conteneur polyvalent très utilisé comme format d’échange, lisible par la plupart des outils.
FLV (Flash Video) est un format de la société Adobe qui propose un faible encombrement et est très utilisé sur les sites de partage de vidéo (YouTube, DailyMotion, etc.).
MPEG (Moving Pictures Expert Group) est dédié exclusivement aux flux MPEG vidéo et audio.
MOV est le conteneur Apple (pour l’application QuickTime). Il est principalement associé au format MPEG-4.
MKV (Matroska – en référence aux poupées russes – Multimedia Container) est un format conteneur libre dérivé du XML et capable de gérer un grand nombre de flux parallèles (vidéo, bandes sons dans plusieurs langues, sous-titres, etc.).
MPEG-2 est un format de compression utilisé pour les DVD.
MPEG-4 est un format normé polyvalent utilisé pour les supports mobiles, le streaming et la télévision numérique.
M4V est un conteneur pour plateformes mobiles (iPod, iTunes, etc.).
Ogg (.ogg) est un conteneur libre et open source contenant Vorbis (codec libre pour l’audio) et Théora (format ouvert de vidéo).

Les principaux formats vidéo

WMV (Windows Media Video) est un format propriétaire développé par Microsoft. Il est le principal format utilisé par le lecteur Windows Media.
DV (DV-AVI) est une norme de la vidéo numérisée faiblement compressée et sans perte de qualité. Il s’agit du standard idéal pour le montage virtuel. Le format DV-AVI est le format d’export associé.
DivX (développé par DivxNetworks) et xVid (son équivalent open source) sont des formats dérivés de MPEG-4, codec intégré à la plupart des outils. Il bénéficie d’un très bon taux de compression, très utilisé pour la « sauvegarde et le partage » de DVD comme pour la diffusion de vidéos (même de longue durée) sur Internet.
MPEG-1, -2, -4 sont des standards vidéo associés à différents niveaux de qualité (résolution et taux de compression).

Les principaux formats audio

WAVE est un format propriétaire développé conjointement par IBM et Microsoft, sans compression.
FLAC (Free Lossless Audio Codec) est un format open source qui permet une compression sans perte (en conservant une qualité CD).
AC3 est un format Dolby digital (utilisé pour les flux 5.1).
AIF est le format non compressé d’Apple.
DD+ correspond au Dolby Digital haute résolution qui permet une compression sans perte.
MP3 est le format de compression avec perte (norme ISO) supporté par la plupart des lecteurs.
WMA est développé par Microsoft, propose une compression avec perte et la gestion des droits numériques (DRM, Digital Rights Management)Les DRM, Digital Rights Management (ou Gestion des Droits Numériques en français), sont des protections numériques appliquées à des œuvres numériques afin d’en encadrer l’utilisation et d’en limiter la diffusion après achat.↩︎.

À chaque combinaison correspond un format de stockage potentiel. La souplesse donnée à l’utilisateur pour coder un fichier multimédia est donc, en théorie, immense.

Dans la pratique, un quatrième élément intervient, qui limite très souvent nos possibilités : le lecteur multimédia. Il s’agit du dispositif utilisé pour lire le conteneur et activer les codecs appropriés. La plupart d’entre eux ne supportent qu’un nombre restreint de conteneurs et de codecs. Cette limitation, variable d’un lecteur à l’autre, rend de fait, l’échange de vidéos assez complexe.

Références

Huc, Claude. 2010. Préserver son patrimoine numérique. Accès libre. Paris: Éditions Eyrolles. https://www.editions-eyrolles.com/Livre/9782212127898/preserver-son-patrimoine-numerique.

Contenus additionnels

Préserver son patrimoine numérique par Claude Huc, Éditions Eyrolles, 2011

Huc (2010)

Source (archive)

Proposé par auteur le 2014-03-01

Viviane Boulétreau

Responsable du pôle informatique de Persée, programme de publication électronique de revues scientifiques en sciences humaines et sociales.

Benoît Habert

Professeur de linguistique et informatique à l’ENS Lyon et membre du laboratoire ICAR (Interactions, Corpus, Apprentissages, Représentations).