Pratiques de l'édition numérique

Les formats

Les formats

Viviane Boulétreau

Benoît Habert

Viviane Boulétreau, Benoît Habert, « Les formats », dans Michael E. Sinatra, Marcello Vitali-Rosati (dir.), Pratiques de l’édition numérique (édition augmentée), Presses de l’Université de Montréal, Montréal, 2014, isbn : 978-2-7606-3592-0, https://www.parcoursnumeriques-pum.ca/1-pratiques/chapitre9.html.
version 1, 01/03/2014
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

Les contenus numériques sont, par nature, encodés. Pour pouvoir être partagée, une information doit être structurée selon des standards : les formats. Le choix d’un format a des implications profondes : les informations que l’on peut transmettre changent, ainsi que leur lisibilité, leur universalité, leur agencement, leur transportabilité, leur transformabilité, etc. Qu’est-ce qu’un format ? Lequel choisir ? Pour quel usage et pour quelle pérennité ? Ce chapitre propose une présentation éclairante de cette notion.

Les formats : invisibles ou pénibles

Il en va des formats informatiques comme des dimensions des roues de nos voitures : nous ne nous y intéressons que lorsque contraints et forcés. Pour les roues, quand il nous faut par exemple leurs dimensions pour acheter des chaînes pour la neige. Pour les formats informatiques, quand « ça ne marche pas ». L’objectif de ce chapitre est de comprendre, essentiellement pour les documents textuels dans la version papier, ainsi que pour les photos et les vidéos à la fin de cette version numérique enrichie, comment ça marche, pour prévenir les problèmes ou être capable de les résoudre.

Les formats nous sont le plus souvent invisibles ou presque. Lorsque nous cliquons ou double-cliquons sur un nom de fichier dans un dossier, sur une icône de pièce jointe dans un courriel, sur un lien dans une page en ligne, quand nous saisissons une adresse (URL)URL : Uniform Resource Locator. Pour en savoir plus, voir « Les protocoles d’Internet du web » par Jean-Philippe Magué.↩︎ dans un navigateur, « il se passe quelque chose », qui est le plus souvent approprié. Nous visionnons un film, nous entendons de la musique, nous visualisons une image, nous lisons un texte qui peut d’ailleurs « contenir » du son, de l’image, de la vidéo. Il y a donc un mécanisme qui associe au format de chaque document un outil adapté. Ce mécanisme apparaît d’abord quand l’application (le navigateur, le système d’exploitation) effectue un diagnostic – elle fait l’hypothèse que le document relève d’un format déterminé – et qu’elle nous propose éventuellement d’utiliser un certain outil pour ce document et pour tous les autres du même format. Ce mécanisme apparaît également quand l’application ne trouve pas d’outil adéquat. Elle nous demande alors de chercher sur l’ordinateur utilisé l’outil nécessaire ou de l’installer. Notre ordinateur utilise donc un mécanisme de détection de format et maintient un « dictionnaire » évolutif associant à un format l’outil à utiliser. On comprend en passant qu’un format peut parfois être utilisé par plusieurs outils.

L’outil qui peut traiter un format change au fil du temps. De nouvelles versions surviennent. Le décalage de version entre celle nécessaire et celle de l’outil peut gêner dans les deux directions. Une ancienne version d’un logiciel peut ne pas prendre en compte un nouveau format. Inversement, une version peut être incapable d’interagir avec un format trop ancien.

Dans la plupart des cas, tout se passe bien. Nous obtenons une interaction normale. Il y a adéquation entre l’outil utilisé et ce qui lui est fourni. Nous pouvons aussi être confrontés à des comportements plus ou moins bizarres, à des dérèglements. L’outil peut enfin se révéler incapable de traiter ce dont il a la charge. Il peut même se « bloquer », voire bloquer l’ordinateur.

Un format : une mise en (bonne) forme de données

Le mot « fromage » vient de « formage », de mettre en forme (une pâte grâce à un moule). On en garde la trace dans le mot « fourme ». De la même manière, un format, c’est quelque chose qui met en forme d’une manière conventionnelle des données destinées à représenter du texte, du son, de l’image, de la vidéo, ou une combinaison des quatre. C’est une sorte de « gabarit » qui met certaines données à des endroits déterminés. Les outils qui vont traiter ce format s’attendent à trouver tel élément à tel endroit, organisé de telle manière, et tel autre à un autre endroit, organisé d’une autre façon.

Prenons l’exemple des pages web. Elles relèvent de la famille de formats HTML. La première ligne d’une page web au format HTML (<!DOCTYPE html>) indique le choix fait quant à la famille (exemple : HTML5Le HTML5 est, en 2014, la version la plus avancée du langage HTML (HyperText Markup Language), développée par le WHATWG (Web Hypertext Application Technology) et le W3C.↩︎).

<!DOCTYPE html>
  <html lang="fr" />   
    <head>   
        <meta charset="utf-8" />   
        <title>Un loup étrange 1</title>   
        <link rel="stylesheet" href="LoupEtrange1.css" />   
    </head>   
    <body>   
        <article>   
         <blockquote>    
              <q>
              Le loup a posé sa tête sur les genoux du Petit Chaperon Rouge.
              Elle lui gratte doucement le crâne.
              Il neige au bord du lac.</q>  
         </blockquote>  
         <p class="reference">Gilbert Lascault <em>Le petit chaperon rouge dans tous ses états</em>
         Seghers, 1989, p. 36</p>   
       </article>
   </body>
   </html>

Le format HTML repose sur des couples de balises ouvrantes – comme <title> – et fermantes – comme </title> – qui constituent des « boîtes » attendant chacune un certain type d’information. Ce qui est dans la boîte « title » est utilisé ainsi par le navigateur pour donner un titre à l’onglet dans lequel est affichée la page. Ce qui est dans la boîte « em » est rendu par des italiques. Une boîte peut contenir une ou plusieurs autres boîtes : la boîte « HTML » contient les boîtes « head » et « body ». Une boîte peut contenir également du texte, ou bien être vide : il n’y a alors qu’une seule balise, avec une oblique avant le chevron fermant. La balise ouvrante d’une boîte peut comporter une ou plusieurs associations, marquées par le signe =, entre un attribut et une valeur. Ces associations permettent de spécifier davantage l’utilisation à faire des informations de la boîte. Le format HTML autorise seulement un certain nombre de boîtes et certains types d’inclusion des boîtes entre elles : la boîte « head » ne peut pas contenir une boîte « body ». La conformité avec le format HTML passe par trois volets, de plus en plus exigeants. Si le document est bien fait de boîtes incluses les unes dans les autres, sans « débordements », avec une seule boîte globale, le document est dit « bien formé ». A contrario, si la boîte « title » n’est pas fermée, toutes les autres boîtes du document y sont incluses et le navigateur n’arrive pas à afficher quoi que ce soit.

<title>Un loup étrange 1   
  <link rel="stylesheet" href="LoupEtrange1.css" />

Si le document emploie les bons types de boîtes dans les bonnes relations d’inclusion, c’est une « page HTML valide ». Si les contenus des boîtes correspondent à leur fonction, c’est une « page HTML cohérente ». Ce ne serait pas le cas si était mis dans la boîte « title » le contenu de la page.

L’outil qui traite un document censé relever d’un certain format commence par vérifier que le format est effectivement respecté. De très petites erreurs de mise en forme peuvent rendre le document inutilisable par l’outil qui le signale ou qui « abandonne la partie » plus ou moins doucement. Inversement, certains outils sont plus tolérants. C’est le cas des navigateurs qui doivent faire face à la maîtrise plus ou moins grande des formats HTML. Ainsi, la modification de la boîte englobante de HTML en HTM ne trouble pas certains navigateurs qui affichent le même résultat.

<htm lang=" fr" />

Les formats : des clauses cachées au contrat explicite – standards et normes

On distingue plusieurs catégories de formats :

L’ancien format .doc de Microsoft Word relevait des formats propriétaires opaques, l’actuel format .docx de Microsoft Word ou le format PDF (Adobe) sont des formats propriétaires publiés, tandis qu’HTML est un format ouvert, spécifié par le consortium qui gère le web, W3CPour en savoir plus sur le World Wide Consortium (W3C), voir « D’Internet au web » par Alain Mille.↩︎.

Un format occupe en fait un des stades du processus de normalisation mis en œuvre au sein de chaque communauté. À partir des bonnes pratiques observées et des « standards de fait » que l’on voit régulièrement émerger, des instances collégiales spécialisées (comités techniques) s’organisent afin d’élaborer un ensemble de référentiels communs : des « normes explicites ». Dans le domaine du document numérique, trois instances principales assurent la gestion des processus de normalisation : l’International Organization for Standardization (ISO), organisme international composé des représentants des organisations nationales (Standards Council of Canada – Conseil canadien des normes ; AFNOR pour la France) ; l’Organization for the Advancement of Structured Information Standards (OASIS), centrée sur la normalisation des formats de fichiers ; le World Wide Web Consortium (W3C), centré sur le webEn savoir plus sur l’International Organization for Standardization (ISO), le Standards Council of Canada – Conseil canadien des normes, l’Association Française de Normalisation (AFNOR), l’Organization for the Advancement of Structured Information Standards (OASIS) et le W3C.↩︎. À l’inverse, certains types de documents ne disposent pas (encore) de formats partagés facilitant l’échange et la reprise. C’est le cas des blogs comme DrupalPour en savoir plus sur Drupal, voir aussi « L’organisation des métadonnées » par Grégory Fabre et Sophie Marcotte.↩︎ ou WordPressWordPress est une plateforme de blogs et un CMS (Content Management System).↩︎.

L’exemple le plus représentatif de format ayant fait l’objet d’une procédure de normalisation est PDF. Né en 1993, le Portable Document Format de la société Adobe Systems avait l’avantage de préserver la mise en page des documents, quelle que soit la plateforme de lecture, son système d’exploitation, etc. Il s’agissait, alors, du seul format ayant cette propriété. Il offrait également des options de sécurisation qui, à une époque où la circulation et le partage de documents n’étaient pas aussi naturels qu’ils le sont devenus, l’ont rendu très attractif. La politique commerciale d’Adobe consistant à distribuer gratuitement l’outil de lecture, à commercialiser à des tarifs très raisonnables les applications permettant de générer des fichiers au format PDF et à autoriser des applications tierces à utiliser – gratuitement – le format, a fait le reste. Ce format est devenu le « standard de fait » pour l’échange de documents. À partir des années 2000, quatre sous-ensembles du format PDF ont fait l’objet d’une normalisation par l’ISO, dont PDF/A dans une perspective de pérennisation.

Dans ces processus de normalisation, XML occupe un rôle central. Ce n’est pas un format, mais un métalangage qui permet de définir pour un ensemble de documents donné la « forme » qu’ils doivent suivre : les types d’informations possibles (les boîtes) et les relations entre eux (les relations d’inclusion ou de succession). Cette forme se matérialise par des balises, comme pour HTML. XML permet d’associer à la définition d’un format des outils de validation qui permettent de certifier qu’un document suit bien les conventions du format. Recourir à XML, c’est donc expliciter le contrat que constitue un format et permettre de vérifier son respect. Les formats OpenDocument et Office Open XML des suites bureautiques d’Open Office et de Microsoft Office reposent ainsi sur XML.

Documents autonomes ou dépendants, documents composites

Un document réalisé sous un certain format peut comporter tous les éléments pour être « reconstruit » sur un autre poste de travail. Il peut également faire référence à des « ressources ». Si celles-ci ne sont pas transmises avec le document, la reconstruction de ce dernier va être plus ou moins dégradée. C’est par exemple le cas si le fichier HTML est transmis sans la feuille de style qui indique la mise en page à appliquer et qui est appelée dans une des lignes de code.

:lang(fr) > q {
  quotes: '«  ' '  »' '"' '"';
  }

  blockquote {text-indent : 2em ;}

  .reference {
  opacity : 0.5 ;
  text-indent : 8em ;
   }

Ou dans un document PDF, lorsque les polices de caractères n’ont pas été intégrées au moment de sa fabrication et que le poste de travail sur lequel est visualisé le document ne dispose pas de la police appropriée. Les caractères manquants sont alors remplacés par d’autres caractères. L’auteur, s’il n’est pas dûment averti de l’existence de ressources secondaires et de leur caractère nécessaire, risque fort de ne pas les sauvegarder, d’omettre de les transmettre et de rendre son document peu lisible.

Contrairement à l’approche initiale consistant à fusionner en un seul fichier, sous un seul format, des constituants de nature différente, les outils actuels privilégient un agrégat de formats élémentaires dédiés à chaque ressource composant un document. Le document lui-même se trouve alors transformé en container, permettant de regrouper et de manipuler un ensemble de ressources hétérogènes : textes, images, éléments de mise en forme, sons, objets mathématiques, etc. C’est le cas des formats OpenDocument, Office Open XML, ePubPour en savoir plus sur le format ePub, voir « Le livrel et le format ePub » par Fabrice Marcoux.↩︎, PDF… Ces différents formats sont en général massivement basés sur XML et ils reposent sensiblement sur les mêmes formats standard pour le stockage des ressources élémentaires. La plupart utilisent la notion d’archive (format ZIP, RARZIP et RAR sont deux formats de fichiers permettant la compression de données.↩︎…) pour regrouper en un seul fichier l’ensemble des ressources qui constituent le document. Enfin, un certain nombre d’éléments communs se retrouvent quel que soit le format envisagé : un groupe de métadonnées, le plus souvent exprimées en XML, donnant des informations de type documentaire, des informations liées à l’application, mais également liées aux licences d’utilisation du document ; un catalogue listant les ressources composant le document en donnant leur typologie (éventuellement complétée d’informations applicatives) ; une structure décrivant l’organisation des ressources les unes par rapport aux autres en matière d’ordonnancement et de hiérarchie. Ces nouveaux formats préservent, pour chaque constituant, le moyen de stockage le plus riche possible. Le recours à XML et à la validation systématique par rapport à des modèles standard confère un caractère pérenne à chaque ressource prise indépendamment. La migration d’un format à l’autre se réduit à une somme de migrations élémentaires.

Jeux de caractères : les formats des données textuelles

Un fichier numérique est une suite de bits, c’est-à-dire de 0 et de 1. Le format spécifie comment interpréter cette suite de 0 et de 1. Un texte est d’abord une suite de caractères. Le flux de bits est découpé en octets, en séquences de 8 bits. Un octet correspond à 28 combinaisons possibles de 0 et de 1, c’est-à-dire à 256 nombres en notation binaire (de 0 – 00000000 – à 255 – 11111111). Chaque nombre est interprété comme un numéro d’ordre dans un jeu de caractères. Le a minuscule a le numéro 95 (1100001). Les caractères consécutifs ont des numéros consécutifs (96 pour b, etc.). Certains caractères sont « invisibles », comme les deux qui peuvent servir au changement de ligne et qui sont empruntés au fonctionnement des machines à écrire : passage à la ligne (faire tourner le rouleau d’un cran – line-feed – caractère 10 – symbolisé par l) et retour-chariot (ramener le rouleau à son point de départ – carriage-return – 13 – r). Le premier jeu de caractères standardisé, en 1963, est l’ASCII (American Standard Code for Information Interchange)Voir la table de l’ASCII (American Standard Code for Information Interchange).↩︎. Il note (code) 128 caractères sur 7 bits (le 8e est à 0). Comme son nom l’indique, il permet de coder l’américain et d’échanger des documents en américain ou en anglais. Il est insuffisant pour noter les langues comprenant des caractères autres, comme les caractères accentués français. Une deuxième étape a été d’utiliser 256 positions (8 bits), en gardant l’ASCII pour les 128 premières, et en utilisant le reste pour d’autres caractères. Mais comme 256 positions ne suffisent pas à toutes les langues occidentales, les 128 positions autres que l’ASCII ont donné lieu à des jeux de caractères reliés mais partageant le noyau ASCII. C’est la famille ISO 8859, standardisée par l’ISO. La branche ISO 8859-1 ou Latin 1 permet de noter le français (sauf pour les caractères Œ, œ, Ÿ, et le signe €) et d’autres langues occidentales. La nécessité de pouvoir échanger en mêlant des textes de plusieurs langues et en intégrant des langues aux jeux de caractères très larges (comme le japonais ou le chinois) a conduit plus récemment à la mise au point du standard Unicode. Il utilise 1 114 112 positions possibles et représentait en janvier 2012 une centaine de scripts qui totalisaient 100 181 caractères. Les scripts sont des collections cohérentes de caractères en usage dans un domaine particulier. Ils incluent les symboles monétaires, les opérateurs mathématiques, le braille, etc. À chaque caractère sont associées des propriétés : opposition majuscules/minuscules ou « casse » ; place dans le tri – le é en français doit être trié avec le e et non mis après le z ; direction d’écriture, de gauche à droite ou de droite à gauche. Unicode reprend comme noyau Latin 1 et donc aussi l’ASCII. Pour représenter le million de positions possibles en « économisant » les octets, on a souvent recours au format UTF, qui utilise de 1 à 4 octets pour fournir la position d’un caractère. Les caractères les plus fréquents, ceux de l’ASCII, sont codés sur un octet. Les caractères accentués du français sont codés sur 2 octets. On le comprend par exemple lorsqu’un fichier HTML obéit au format UTF-8 tandis que le navigateur attend de l’ISO Latin 1. Les lettres accentuées sont alors remplacées par deux caractères « bizarres ». À l’inverse, lorsque le fichier HTML est en ISO Latin 1 et que le navigateur attend de l’UTF-8, celui-ci remplace les lettres accentuées par une marque conventionnelle de « gêne ». On peut faire en sorte que le navigateur utilise un autre jeu de caractères que celui défini dans ses préférences ou changer ces dernières.

On parle parfois de format texte (seul), c’est-à-dire d’un ensemble de caractères sans indications de mise en forme. Pour pouvoir utiliser un fichier au format texte, il faut connaître le jeu de caractères qu’il utilise et aussi la manière dont il matérialise les changements de ligne. Historiquement, le monde Windows utilisait la suite retour-chariot/passage à la ligne, tandis que l’univers Mac se contentait du seul retour chariot, et le monde Linux/Unix du passage à la ligne. Confrontés à un fichier texte seul, les traitements de texte actuels proposent souvent, si nécessaire, de convertir le fichier pour qu’il utilise les conventions qui sont les leurs. Un autre format textuel courant est CSV pour Comma Separated Values. C’est une manière au départ de représenter des tableaux de nombres en séparant les colonnes par des virgules (commas), puisqu’en anglais le point est le séparateur décimal, et les lignes par des changements de ligne. Pour le français, c’est alors souvent la tabulation (caractère 9 – t) qui sépare les colonnes, la virgule étant le séparateur décimal. Les tableurs importent ou exportent des données au format CSV.

Quand on copie une portion de document dans une application (navigateur, par exemple) et qu’on la colle dans une autre (traitement de texte ou courriel, par exemple), via une zone d’échange appelée « tampon », le format de ce qui est copié peut être plus ou moins conservé. Si le maintien du format compte, on utilisera plutôt les fonctions de conversion explicite (en import ou en export) des logiciels en question.

Quels formats pour quels usages ?

Les formats sont le plus souvent invisibles : nos actions suffisent en général à mobiliser ceux qui nous servent. Ils sont en fait trop souvent invisibles : le choix est fait « à notre insu », sans qu’aient toujours été pesées les contraintes à respecter en fonction de l’usage à faire du document en question, maintenant et plus tard.

Nos objectifs, une fois correctement énoncés, nous permettent la plupart du temps de choisir une famille de formats. Les contraintes techniques, économiques, les choix politiques, les usages d’une communauté suffisent à affiner ce premier tri. Aussi ne sommes-nous pas toujours aussi libres que nous pourrions le souhaiter. En nous plaçant délibérément dans un contexte moins contraint, deux critères complémentaires peuvent nous aider à choisir le format adéquat.

Les formats images

La problématique pour le stockage des images sous forme numérique est assez proche de celle que nous avons décrite pour les documents et il convient de se poser les mêmes questions : usage des fichiers (création, échange, stockage), préservation des informations (court terme, long terme), etc.

La plupart des solutions commerciales dédiées à la création et au traitement des images proposent un format qui leur est propre, mais toutes sont également aptes à lire et à écrire un certain nombre de formats standard. Ce sont ces formats qui sont en général utilisés pour la conservation, l’échange et la diffusion des images que nous allons décrire.

De façon générale, on distingue deux types de formats d’images :

Description des formats :

Format Type de format Type d’image Compression Avantage(s) Inconvénient(s) Usage recommandé
BMP (BitMap) Format propriétaire de Microsoft Matricielle, 16 M de couleurs Non - Qualité des images - Fichiers très volumineux
- Peu disponible en dehors des outils Microsoft
Format historique (déprécié)
PICT (Picture) Format des plateformes MacOs Matricielle, 16 M de couleurs Non -Qualité des images - Fichiers volumineux
- Uniquement pour MacOs
Format historique (déprécié)
GIF (Graphical Interchange Format) Format propriétaire de la société Compuserve Matricielle, Palette de 256 couleurs Automatique - Poids des fichiers
-Supporte les animations
- Limitation de la palette Principal format du web jusqu’au milieu des années 2000. Emploi en recul
JPEG (Joint Photographic Experts Group) Format libre Matricielle, 16 M de couleurs Avec perte Taux de compression défini par l’utilisateur - Poids des fichiers
- L’utilisateur définit lui-même le ratio poids/qualité qu’il juge souhaitable
- Perte d’information : un fort taux de compression entraîne une forte dégradation de la qualité
Échange de fichiers Diffusion web
JPEG 2000 Évolution de JPEG, libre Matricielle, 16 M de couleurs Adaptative (ondelettes) - La compression détériore moins l’image que le JPEG
- Gestion des métadonnées
- Perte d’information
Échange de fichiers Diffusion web
TIFF (Tagged Image File Format) Format propriétaire
Brevet Aldus
Matricielle, 16 M de couleurs Automatique, sans perte (LZW) - Pas de perte d’information, maintien de la qualité - Poids (gain de 25% environ)
- Nombreuses versions de ce format (entraîne des problèmes de compatibilité)
Stockage et archivage de photos
PAO et imprimerie
PNG (Portable Network Graphic) Format libre et normé Matricielle, 16 M de couleurs Automatique, sans perte - Maintien de la qualité
- Poids des fichiers (compression très performante)
- Gestion de la transparence (fusion d’images)
Stockage et archivage de photos
PAO et imprimerie
Diffusion web (pour de petites images)
PS/EPS (Encapsulated PostScript) Format propriétaire Adobe Hybride matriciel et vectoriel Non - Exploitable sur toutes les plateformes - TRÈS lourd Impression professionnelle
SVG (Scalable Vector Graphics) Format libre Format XML vectoriel Non - Fichier texte (léger)
- Gestion de la transparence, animation
- N’est pas encore supporté par tous les outils (plugin souvent nécessaire) Format émergeant (lentement)

À titre d’illustration, le tableau suivant donne le poids des fichiers correspondant à une même image initiale d’une taille de 975 par 900 pixels, en 16 millions de couleurs :

Image non dégradée
Pivoine.bmp : image non dégradée au format BMB (2574Ko) Pivoine.tif : image non dégradée au format TIF (1072ko) Pivoine.png : image non dégradée au format PNG (921ko)
Pivoine.bmp : image non dégradée au format BMB (2574Ko) Pivoine.tif : image non dégradée au format TIF (1072ko) Pivoine.png : image non dégradée au format PNG (921ko)
Image dégradée
Pivoine.gif : image dégradée au format GIF (467ko) Pivoine.jpg : image dégradée au format JPG, compression minimale (569ko) Pivoine.jpg : image dégradée au format JPG, compression intermédiaire (128Ko) Pivoine.jpg : image dégradée au format JPG, compression forte (43Ko)
Pivoine.gif : image dégradée au format GIF (467ko) Pivoine.jpg : image dégradée au format JPG, compression minimale (569ko) Pivoine.jpg : image dégradée au format JPG, compression intermédiaire (128Ko) Pivoine.jpg : image dégradée au format JPG, compression forte (43Ko)

De façon générale :

Les formats vidéo et multimédia

Pour mieux appréhender les formats vidéo ou multimédia, il est nécessaire de comprendre leur constitution.

Leur construction permet de gérer en parallèle différents flux qui peuvent être de nature différente :

La manipulation de données multimédia fait, le plus souvent, intervenir deux notions distinctes : le conteneur et le (ou les) codec(s). Un codec est un dispositif qui permet l’encodage et le décodage de chacun des fluxLe mot codec est un mot-valise qui vient de l’anglais code-decode (« codage-décodage »).↩︎. Pour constituer un « fichier multimédia », tous ces flux gérés de façon autonome sont stockés (encapsulés) dans un conteneur commun qui assure en outre leur synchronisation.

L’association conteneur et codec est souvent définie par défaut, au point qu’on les confonde très souvent, mais certains conteneurs sont dits « polyvalents » et peuvent associer de très nombreux formats de flux.

Un fichier multimédia est donc caractérisé par la donnée de trois informations principales : le conteneur, le codec vidéo et le codec audio.

Les principaux formats conteneur

Les principaux formats vidéo

Les principaux formats audio

À chaque combinaison correspond un format de stockage potentiel. La souplesse donnée à l’utilisateur pour coder un fichier multimédia est donc, en théorie, immense.

Dans la pratique, un quatrième élément intervient, qui limite très souvent nos possibilités : le lecteur multimédia. Il s’agit du dispositif utilisé pour lire le conteneur et activer les codecs appropriés. La plupart d’entre eux ne supportent qu’un nombre restreint de conteneurs et de codecs. Cette limitation, variable d’un lecteur à l’autre, rend de fait, l’échange de vidéos assez complexe.

Références
Huc, Claude. 2010. Préserver son patrimoine numérique. Accès libre. Paris: Éditions Eyrolles. https://www.editions-eyrolles.com/Livre/9782212127898/preserver-son-patrimoine-numerique.

Contenus additionnels

Préserver son patrimoine numérique par Claude Huc, Éditions Eyrolles, 2011

Huc (2010)

Source (archive)

Proposé par auteur le 2014-03-01

Viviane Boulétreau

Responsable du pôle informatique de Persée, programme de publication électronique de revues scientifiques en sciences humaines et sociales.

Benoît Habert

Professeur de linguistique et informatique à l’ENS Lyon et membre du laboratoire ICAR (Interactions, Corpus, Apprentissages, Représentations).