Les potentialités du texte numérique

Les potentialités du texte numérique

⊕ Stéfan Sinclair, Geoffrey Rockwell, « Les potentialités du texte numérique », dans Michael E. Sinatra, Marcello Vitali-Rosati (dir.), Pratiques de l’édition numérique (édition augmentée), Presses de l’Université de Montréal, Montréal, 2014, isbn : 978-2-7606-3592-0, https://www.parcoursnumeriques-pum.ca/1-pratiques/chapitre12.html.
version 1, 01/03/2014
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

Pour avoir une idée précise des possibilités apportées par le numérique à l’édition, il est indispensable de pouvoir assumer le point de vue du lecteur : que peut-on faire avec un texte numérique ? Comment peut-on l’exploiter ? Que peut-on en apprendre en utilisant des outils d’analyse ? Se poser ces questions est indispensable lorsque l’on s’interroge sur les bonnes pratiques de la production des contenus numériques. Seul le fait d’être conscient des potentialités offertes par le texte numérique nous permettra de mettre en place de bonnes pratiques et d’en produire. Ce chapitre propose une introduction à ces thématiques.

Introduction

Pour quelqu’un de passionné par la littérature, la fouille informatisée de textes peut paraître bien exotique, voire subversive : pourquoi voudrait-on céder le moindre plaisir du texte à une calculatrice ? Tout le monde sait que l’ordinateur ne comprend rien aux relations humaines, au langage métaphorique, à l’ironie et à bien d’autres ingrédients encore qui donnent aux textes leur piquant. À quoi peut bien servir la machine pour l’étude et la critique littéraires ?

Ce chapitre tentera de répondre à cette question, sans pour autant vouloir convertir qui que ce soit. Nous reconnaissons que la réaction sceptique chez le littéraire est tout à fait naturelle et nous estimons d’ailleurs qu’une bonne dose de scepticisme est essentielle lorsque se conjuguent analyse informatisée et herméneutique. Cela dit, nous souhaitons remettre en cause l’image dominante que nous fournit la société de l’ordinateur comme générateur prodigieux de données infaillibles et de graphiques inéluctables. Ce que l’on ignore souvent, c’est que l’ordinateur, grâce à la nature même du numérique, peut s’avérer une aide très puissante pour faire proliférer le nombre et les types de représentations d’un texte. Loin d’en réduire la souplesse et la richesse, les outils informatiques peuvent servir à multiplier la matière brute qui mène à de nouveaux constats, de nouvelles associations, de nouveaux arguments. La machine est l’engin du heureux hasard, contrainte seulement par l’imagination de son utilisateur.

Ce chapitre est divisé en deux sections. Dans la première, nous rappellerons quelques caractéristiques clés des textes numériques ; il est capital de bien comprendre la nature du texte numérique avant de pouvoir procéder à son analyse. Dans la deuxième section, nous introduirons certains concepts de base pour la lecture informatisée de textes et nous signalerons quelques outils repères qui sont adaptés au contexte des sciences humaines (compétences techniques, orientation épistémologique, etc.).

Le texte numérique

Le monde change vite : d’après l’Association of American PublishersEn savoir plus sur l’Association of American Publishers.↩︎, la part du marché des livres numériques (aux États-Unis) est passée d’environ 1 % en 2008 à presque 23 % quatre ans plus tard (Sporkin 2013). Cette croissance explosive semble se stabiliser et la situation n’est pas la même dans toutes les régions et pour toutes les langues (ni pour tous les genres : une proportion démesurée de lectrices et lecteurs semblent préférer la discrétion de l’édition numérique de 50 nuances de Grey, par exempleCf. Bourdeau (2012).
50 nuances de Grey est en 2012 le premier livre à dépasser le million de copies vendues sur Kindle.↩︎). Toujours est-il que l’édition numérique s’installe, se normalise. La convivialité des liseuses (leur poids, leur écran, leur interface) et la disponibilité des titres font que l’attachement historique à la page imprimée se délie, même pour la lecture dans le bain.

Pour la lecture conventionnelle (séquentielle), la question du format est somme toute secondaire. Si on lit un texte du début à la fin, peu importe de tourner une page matérielle ou d’appuyer sur une flèche pour avancer. Certes, l’expérience de lire n’est pas identique dans les deux cas (on peut penser aux indices tactiles que représentent le nombre de pages que l’on a lues dans la main gauche par rapport aux pages qui restent à lire dans la main droite), mais bien d’autres facteurs interviennent également dans l’expérience personnelle (lieu de lecture, heure de la journée, couverture souple ou cartonnée, etc.). On peut d’ailleurs s’étonner de voir l’étendue du skeuomorphisme dans les éditions numériques, c’est-à-dire à quel point on cherche à rassurer les lecteurs en reproduisant les caractéristiques familières du volume imprimé dans la version numérique. Et pourtant, il peut exister aussi des fonctions inédites dans la version numérique, tel que les notes publiques (les annotations ajoutées par d’autres lecteurs qui se font à une tout autre échelle que les quelques gribouillages clandestins que l’on peut trouver dans les marges d’un livre imprimé).

La question qui nous préoccupe ici n’est pas comment on « lit » un texte du début à la fin, mais plutôt comment on « étudie » et « analyse » un texte. Il y aura toujours des divergences de préférences pour la consommation conventionnelle des textes, que ce soit la page imprimée, la page web, l’écran de la liseuse, le livre audio ou d’autres supports encore. Les préférences personnelles peuvent jouer également dans le choix de format pour l’analyse de texte (informatisée ou non), mais force est de constater que tous les formats ne sont pas égaux. Rappelons d’emblée que l’étymologie du mot «analyse» évoque le déliement et la décomposition. Or telle est justement la nature du numérique : être coupé, être représenté par des unités discrètes d’informations, des bitsUn bit, contraction de l’anglais binary digit, représente un choix binaire, comme le chiffre 0 ou le chiffre 1. Un bit permet de représenter deux possibilités, deux bits quatre possibilités, trois bits huit et ainsi de suite (2ⁿ ou n est le nombre de bits et le résultat indique le nombre de possibilités).↩︎. Alors que la page imprimée est un support analogue dans la mesure où elle représente une séquence continue de texte (l’unité des lettres individuelles n’étant pas à confondre avec la continuité de la page où elles sont inscrites), le support numérique traite déjà chaque lettre comme une entité indépendante et mobile.

Déjà dans son article de 1985 intitulé « Quelques réflexions sur le statut épistémologique du texte électronique », Serge Lusignan décrivait les retombées du texte numérique :

Le texte magnétique ou électronique possède des caractères de flexibilité et de malléabilité qu’ignore le texte imprimé. Les caractères et les mots incrustés dans le papier ne peuvent être ni déplacés, ni ré-ordonnés, ni modifiés, tandis que les caractères et les mots magnétisés sont complètement mobiles. Ce trait propre au texte électronique permet de lui appliquer, grâce à l’ordinateur, différentes procédures algorithmiques de manipulation (1985).

Rien du format numérique n’oblige une réorganisation des lettres et des mots (comme en témoigne la grande majorité des éditions numériques). En revanche, il est possible de découper le texte imprimé comme l’ont fait de façon enjouée les DadaïstesVoir par exemple Die heilige Sattlermappe réalisé par l’artiste allemand Kurt Schwitters en 1922.↩︎ ou, de façon moins enjouée mais bien avant, les moines du XIIIe siècle qui ont inventé la concordance en réorganisant le texte de la Bible par chaque occurrence d’un mot clé avec un peu de contexte. Simplement, la nature même du texte numérique facilite le découpage et la réorganisation, elle se prête naturellement à l’analyse. En empruntant le jargon du domaine de l’interaction homme-machine, on pourrait parler de l’affordanceLe terme affordance nous parvient de James Gibson qui s’intéresse aux objets de notre environnement, comme un escalier, qui suggèrent des possibilités d’action de façon objective mais aussi sensible aux circonstances d’un acteur particulier ; voir The Theory of Affordances (1977) et The Ecological Approach to Visual Perception (1979).↩︎ du texte numérique : la structure de l’information textuelle en unités mobiles suggère d’elle-même sa propre utilisation pour l’analyse.

Nous reviendrons aux possibilités de l’analyse informatisée dans la prochaine section, mais il vaut la peine de s’attarder un moment sur la simplicité trompeuse du texte numérique car, sans une compréhension de la matière brute avec laquelle on travaille, il est difficile de véritablement comprendre ce que l’on construit.

Comme nous l’avons déjà évoqué, l’ordinateur fonctionne comme un système binaire qui traite de l’information encodée à un niveau élémentaire en 0 et 1 (ce qui représente par la suite la présence ou l’absence de courant dans un transistor qui contrôle des circuits logiques). Il est remarquable que toute la magie informatique soit rendue possible par cette dichotomie élémentaire d’une grande simplicité : les mots dans un texte numérique, les requêtes quasi instantanées d’un moteur de recherche sur des centaines de milliards de pages indexées, le graphisme réaliste d’un jeu vidéo, le système qui gère les mouvements complexes d’un avion commercial, et ainsi de suite.

Si l’on prend les 26 lettres de l’alphabet romain, il suffit de 5 bits (5 colonnes de 0 et de 1) pour représenter toutes les possibilités5 bits = 2⁵ = 22222 = 32.↩︎. Effectivement, à l’aube de l’ère informatique (dans les années 1940 et 1950), c’est justement avec 5 bits que les textes étaient représentés, mais cela ne servait que pour les lettres en majuscules. Il faudrait au moins 52 possibilités pour inclure aussi les lettres en minuscules, sans parler des caractères avec diacritiques, de la ponctuation et d’autres marques typographiques, et des variantes de l’espace blanc (espace simple, espace insécable, espace de tabulation, fin de ligne, etc.). L’histoire de l’informatique trace d’ailleurs une progression des jeux de caractères de plus en plus grands et inclusifsVoir aussi à ce propos « Les formats » par Viviane Boulétreau et Benoît Habert.↩︎ : 7 bits (128 possibilités) pour ASCIIASCII : American Standard Code for Information Interchange. Voir la table.↩︎ en 1963, 8 bits (256 possibilités) pour l’ASCII étenduVoir la table de l’ASCII étendu.↩︎, et jusqu’à 16 bits pour Unicode (UTF-32 pouvant représenter jusqu’à 4 294 967 296 possibilitésEn pratique, le standard Unicode actuel est constitué de quelque 100 000 caractères tirés d’une centaine de systèmes d’écriture.↩︎). On peut se demander pourquoi ne pas avoir créé un grand jeu de caractères dès le début, mais n’oublions pas que la mémoire était alors précieuse pour l’informatique. C’était le même principe pour la représentation des années avec deux chiffres qui a causé beaucoup de soucis à la fin du millénaireIl est ici fait référence au bug (ou bogue) de l’an 2000. En savoir plus.↩︎. Les 4 Ko disponibles dans l’Apple II de 1977 sont 1 000 000 de fois inférieurs au 4 Go disponibles dans un modèle d’ordinateur portable de base aujourd’hui.

Publicité pour l’Apple II en 1977

Crédits : Apple

Source

Proposé par auteur le 2014-03-01

Tout aussi important que la taille des jeux de caractères est leur standardisation. Rien d’inhérent ne définit la lettre A comme le code décimal 65 (comme le font les normes ASCII, ISO-8859-1 et UnicodeEn savoir plus sur les normes ASCII, ISO-8859-1 et Unicode.
Voir aussi « Les formats » par Viviane Boulétreau et Benoît Habert.↩︎) ; c’est une convention. Simplement, pour que les systèmes puissent se parler, pour qu’il y ait interopérabilité des données, pour éviter une tour de Babel, les standards sont essentiels pour les caractères.

Il en va de même pour les formats de document. Le format le plus simple est un document en texte brut, mais ce format ne permet pas de préciser le jeu de caractères utilisé, ce qui cause des ennuis pour un texte en français qui s’affichera différemment selon qu’il s’agit de Latin-1Latin-1 est une autre appellation de la norme ISO-8859-1.↩︎, Mac OS RomanEn savoir plus sur le Mac OS Roman.↩︎, Unicode ou autre. Un texte formaté peut exprimer l’encodage des caractères, mais toute instruction de formatage entraîne un coût important pour la complexité du format. Or plus un format est complexe, plus le logiciel de traitement devra être complexe et plus la pérennité du format sera en cause, surtout pour les formats dits propriétaires (ou fermésUn intérêt commercial pour les formats ouverts a fait en sorte que plusieurs formats qui étaient autrefois propriétaires sont maintenant ouverts, comme le format PDF. Toujours est-il que ces formats sont souvent très complexes et donc moins accessibles et plus sujets à l’obsolescence.↩︎). C’est justement cette logique qui a motivé Michael Hart, le fondateur du Projet GutenbergLe Projet Gutenberg a été créé en 1971 par Michael Hart. Il s’agit d’une bibliothèque en ligne regroupant des livres en version numérique libres de droit.↩︎, à privilégier le format texte brut pour sa collection de textes du domaine public qui comprend aujourd’hui quelques 40 000 titres. Le format ouvert ePub (qui utilise en partie le même balisage HTML que pour les pages web) s’est établi comme un format de prédilection pour la diffusion de textes numériques, surtout pour sa mise en page flexible qui facilite la représentation multiplateforme sur des écrans de tailles très différentes (téléphone intelligent, tablette, liseuse, ordinateur, etc.). La capacité du format ePub à gérer (de façon facultative) les droits d’accès a sans doute énormément contribué au succès commercial du formatVoir aussi « Le livrel et le format ePub » par Fabrice Marcoux.↩︎. L’ePub réussit à encoder les caractères et la structure de base des textes, mais il n’est pas conçu pour représenter de façon standardisée d’autres détails textuels et métatextuels, tel que les types de stances dans un poème, les variantes orthographiques entre différentes éditions ou les trous illisibles dans une page manuscrite, pour ne donner que trois exemples parmi un nombre presque infini. C’est pourquoi les chercheurs et archivistes soucieux de capter une gamme beaucoup plus large de détails préfèrent la Text Encoding Initiative (TEI), un langage XML qui permet de décrire les caractéristiques sémantiques d’un texte plutôt que sa présentation (qu’une séquence de mots exprime un titre de livre, par exemple, et non seulement un bloc quelconque à représenter en italique)Voir aussi « L’organisation des métadonnées » par Grégory Fabre et Sophie Marcotte.↩︎.

Quel que soit le format, la première étape pour l’analyse de texte informatisée est souvent l’extraction du texte en format brutUn des meilleurs outils de conversion et d’extraction s’appelle Calibre.↩︎. Il serait bien de pouvoir exploiter les balises sémantiques dans un fichier de format TEI, par exemple, mais très peu d’outils sont conçus pour le faire (et donc les balises deviennent superflues ou même nuisibles à l’analyse).

La lecture informatisée

Il nous est arrivé à tous d’avoir un passage d’un livre à l’esprit, et même le souvenir de quelques mots clés, mais d’éprouver du mal à le retrouver en feuilletant les pages. Quiconque a utilisé la fonction « Rechercher » dans un logiciel pour trouver un mot ou une phrase dans un fichier PDF, un document MS Word ou une page web connaît déjà l’utilité du format numérique ; c’est une opération de dépistage que la page imprimée n’offre pas. Il ne faut surtout pas sous-estimer la valeur des procédures simples avec les textes numériques. Par exemple, si l’on souhaite mieux comprendre la façon dont Molière parle de « ma pensée » dans une version PDF des Œuvres complètesLes Œuvres complètes de Molière sont disponibles en version numérisée sur Gallica.↩︎, il suffit de faire une recherche de phrase (mots entre guillemets) dans le logiciel Aperçu (ou Adobe Acrobat) pour voir une concordance qui permet de naviguer facilement entre chaque occurrence (autrement dit, certaines fonctions d’analyse de texte sont à la portée de tous). La recherche de mots clés nous permet de trouver ce que l’on cherchait, mais elle permet aussi de découvrir ce que l’on ignorait. La découverte est d’ailleurs le premier des principes de la recherche savante (« scholarly primitives ») identifié par John Unsworth en parlant des méthodologies dans les sciences humaines (les autres étant l’annotation, la comparaison, le renvoi, l’échantillonnage, la démonstration et la représentationCe sont nos propres traductions de « discovering », « annotating », « comparing », « referring », « sampling », « illustrating », « representing » ; voir Unsworth (2000).↩︎.

Comme c’est généralement le cas dans l’analyse de texte, la recherche de mots clés paraît simple, mais elle peut vite devenir étonnamment compliquée. Revenons à l’exemple de « ma pensée » : une séquence de caractères que le logiciel devrait pouvoir trouver dans un texte source. Mais que se passe-t-il si la séquence se trouve en début de phrase et que la lettre initiale est en majuscule ? Ou si deux espaces ou une fin de ligne séparent les deux mots ? Et nous passons sous silence les variantes orthographiques, les coquilles, etc. Certains logiciels s’occupent de normaliser les différences (par exemple Aperçu), d’autres offrent des paramètres avancés de recherche (par exemple MS Word) et d’autres encore permettent ce que l’on appelle des expressions régulières (par exemple TextMateTextMate est un éditeur de texte pour Mac.↩︎), une syntaxe très souple pour effectuer des recherches. Ainsi, si l’on voulait trouver « ma pensée » ou « ta pensée » de façon très flexible, on pourrait définir une expression régulière comme : /\b[mt]a\s+penséeb/i (la barre oblique commence l’expression, \b indique la frontière d’un mot, [mt] correspond à l’une ou l’autre des lettres, s+ trouve un ou plusieurs caractères d’espace blanc, la deuxième barre oblique termine l’expression et le i indique que l’expression n’est pas sensible à la casse).

La recherche de mots clés mène naturellement à une deuxième forme d’analyse informatisée qui est facilitée par la nature numérique des textes : le comptage des fréquences. Les fréquences individuelles ne valent rien en soi, elles gagnent à être comparées, soit à d’autres termes dans le même texte, soit à la fréquence d’un terme dans un autre document. Dire par exemple qu’il y a 305 occurrences du mot « monsieur » dans notre édition du Bourgeois gentilhommeVoir Le bourgeois gentilhomme (1670) de Molière en version numérisée sur Gallica.↩︎ de Molière manque de contexte et de poids. Par contre, cela peut devenir plus intéressant quand l’on considère que le même texte ne contient que 180 occurrences de « madame », presque la moitié des occurrences de « monsieur ». On pourrait commencer à formuler une hypothèse au sujet de la présence relative des sexes dans ce texte, mais avec les opérations quantitatives il faut toujours rester conscient des particularités des données. Le Bourgeois gentilhomme est une pièce de théâtre, bien entendu, et notre édition en texte brut indique le nom de chaque personnage devant sa réplique – la fréquence de certains mots peut être déjouée par la présence d’éléments métatextuels (l’indication des répliques de Monsieur et Madame Jourdain). D’inclure dans le décompte le nom des personnages n’est pas nécessairement faux, mais il faut tout simplement en être conscient et pouvoir le justifier (la proportion relative des termes « monsieur » et « madame » reste à peu près pareille avec ou sans les indications de personnage).

On peut comparer des fréquences absolues dans un même document, mais aussi les fréquences absolues ou relatives par rapport à d’autres documents. Le concept de fréquence relative est important : si deux documents ont exactement 1 000 mots, les fréquences absolues et relatives sont identiques. Cependant, puisque les textes sont presque toujours de longueurs différentes, il est souvent utile de relativiser les valeurs : 10 occurrences d’un terme dans un document de 1 000 mots ne valent pas 10 occurrences dans un document de 500 mots – le terme est deux fois plus fréquent dans le deuxième texte. On cherche donc une échelle relative ; on peut dire que le premier texte a 100 occurrences par 10 000 mots alors que le deuxième a 200 occurrences toujours par 10 000 mots (l’échelle importe peu, l’important est de trouver une façon de comparer les valeurs).

Certains cas de comparaison se prêtent très bien à une étude de l’agencement ordonné des valeurs. Une forme d’agencement possible (et commune) est l’ordre chronologique des documents. Si l’on prend les fréquences relatives de «monsieur» et «madame» dans l’ensemble de l’œuvre théâtrale de Molière disposée en ordre de parution, on observe une augmentation assez marquée vers la fin de sa carrièreVoir le graphique (les titres ne sont pas visibles dans le graphique de Voyant Tools, mais la tendance est nette même si certains des derniers textes font exception, comme Psyché.↩︎. L’outil Google Books Ngram ViewerGoogle Books Ngram Viewer est un outil qui permet de visualiser, dans un graphique, la fréquence d’utilisation d’un mot ou d’un groupe de mots dans un corpus et une période donnés. En savoir plus.↩︎ permet de telles requêtes diachroniques à une échelle inouïe (plus de cinq millions de livres, toutes langues confondues), même si les détails pour chaque texte demeurent malheureusement inaccessiblesVoir par exemple la fréquence de « monsieur » et « madame » dans tout le corpus français.↩︎. Google Books Ngram Viewer a été devancé par plusieurs projets de textes numériques à grande échelle en français, y compris Le Trésor de la langue française au début des années 1970Voir en particulier Étienne Brunet (1989), ainsi que Mark Olsen (1993).↩︎, American and French Research on the Treasury of the French Language (ARTFL) au début des années 1980 et Gallica au début des années 1990En savoir plus sur Le Trésor de la langue française, American and French Research on the Treasury of the French Language (ARTFL) et Gallica.↩︎.

Graphique linéaire avec l’outil Google Ngram

Crédits : Stéfan Sinclair et Geoffrey Rockwell

Source (archive)

Proposé par auteur le 2014-03-01

Les graphiques linéaires peuvent être très puissants pour visualiser les données « comparatives » (comme les fréquences relatives), et il en va de même pour les données « associatives » en réseau. Si l’on veut examiner la collocation des termes – autrement dit la proximité des termes –, on peut utiliser les concepts précédents de recherche, comptage et comparaison pour créer une constellation de termes à haute fréquence qui ont tendance à paraître ensemble. On pourrait vouloir examiner le réseau de mots liés (par proximité) à « monsieur » et « madame » : quels mots sont les plus associés à l’un ou l’autre de nos mots clés ? Quels mots sont associés aux deux ? Le graphique nous suggère que « mari », « dieu » et « fille » sont plus associés à « madame », alors que « maître », « comédie » et « philosophie » sont plus associés à « monsieur », et enfin que « comtesse », « vicomte » et « oui » sont associés aux deux (entre autres). Encore une fois, les associations ne sont pas concluantes en soi, mais le graphique peut nous mener à poser des questions qui ne nous seraient pas venues à l’esprit autrement.

Plusieurs outils sont disponibles pour la lecture et l’analyse informatisées mais, à quelques exceptions près, il s’agit de variantes des procédures élémentaires présentées ici : la recherche, le comptage, la comparaison et l’association. La préparation des données textuelles peut être très exigeante (et souvent quelques compétences de programmation s’avèrent indispensables, surtout les langages de script comme Python, Ruby et PHPEn savoir plus sur les langages de script Python, Ruby et PHP.↩︎). Mais des outils comme Voyant ToolsVoyant Tools est un outil permettant la visualisation et l’exploration de textes numériques développés par Stefan Sinclair et Geoffrey Rockwell.↩︎ démontrent qu’il est possible de prendre plusieurs documents dans des formats variés (texte brut, MS Word, PDF, etc.), de les ajouter à l’outil et de commencer à lire, à explorer et à analyser. Ces activités diverses représentent les atouts des textes numériques.

Conclusion

Les textes numériques nous entourent de plus en plus, mais nous ne les connaissons guère. Nous avons voulu ici revisiter la nature des textes numériques et surtout voir comment la décomposition de l’information en unités discrètes nous permet d’élargir le sens de la lecture au-delà du texte séquentiel pour inclure la recherche, le comptage, la comparaison et l’associationPour un exemple de fouille littéraire à plus grande échelle, voir Matthew Jockers (2013).↩︎. Cela dit, il est essentiel de comprendre le rôle de l’informatique dans l’entreprise littéraire : elle peut nous aider à répondre à des questions quantitatives, mais celles-ci ont tendance à être banales et à manquer de contexte. Le vrai potentiel du texte numérique réside en sa capacité de faire proliférer les représentations des textes et de nous amener à poser de nouvelles questions interprétatives.

Références

Barthel, W, et F Markwardt. 1975. « Aggregation of blood platelets by adrenaline and its uptake ». Biochemical pharmacology 24 (20): 1903‑4.

Bourdeau, Thomas. 2012. « L’érotisme se savoure en toute discrétion sur Kindle ». RFI, octobre. https://www.rfi.fr/fr/france/20121016-50-shades-of-grey-sex-mommy-porn-bdsm.

Brunet, Etienne. 1989. « L’exploitation des grands corpus: Le bestiaire de la littérature française ». Literary and Linguistic Computing 4 (2): 121‑34. http://llc.oxfordjournals.org/content/4/2/121.

Gibson, James J. 1977. « The Theory of Affordances ». In Perceiving, Acting and Knowing. Toward an Ecological Psychology, 67‑82. Routledge. https://monoskop.org/images/2/2c/Gibson_James_J_1977_The_Theory_of_Affordances.pdf.

———. 1979. The ecological approach to visual perception. Boston: Houghton Mifflin.

Jockers, Matthew Lee. 2013. Macroanalysis: digital methods and literary history. Topics in the digital humanities. Urbana: University of Illinois Press. http://www.digitalstudies.org/ojs/index.php/digital_studies/article/view/258/306.

Lusignan, Serge. 1985. « Quelques Réflexions sur le Statut Epistémologique du Texte Electronique ». Computers and the Humanities 19 (4): 209‑12. http://www.jstor.org/stable/30200019.

Minnesota. 1977. Perceiving, acting, and knowing: toward an ecological psychology. Édité par Robert Shaw et John Bransford. Hillsdale, N.J. : New York: Lawrence Erlbaum Associates ; distributed by the Halsted Press Division, Wiley.

Molière. s. d.a. Le bourgeois gentilhomme. http://gallica.bnf.fr/ark:/12148/bpt6k57729485.

———. s. d.b. Oeuvres complètes. http://gallica.bnf.fr/ark:/12148/bpt6k5505281w.

Oancea, I. 1975. « [The immediate effect of beta-isoket on the internal ocular pressure in patients with chronic simple glaucoma (author’s transl)] ». Klinische Monatsblätter für Augenheilkunde 167 (4): 618‑22.

Olsen, Mark. 1993. « Signs, symbols and discourses: A new direction for computer-aided literature studies ». Computers and the Humanities 27 (septembre): 309‑14. https://doi.org/https://doi.org/10.1007/BF01829380.

Ramsay, Stephen. s. d. « Steve Ramsay’s Guide to Regular Expressions ». http://solaris-8.tripod.com/regexp.pdf.

Sporkin, Andi. 2013. « Trade Publishers’ Net Revenue Grows 6.2% for Calendar Year 2012 ». Association of American Publishers. https://web.archive.org/web/20130530021601/http:/publishers.org/press/101/.

Unsworth, John. 2000. « "Scholarly Primitives: what methods do humanities researchers have in common, and how might our tools reflect this?" ». http://people.brandeis.edu/~unsworth/Kings.5-00/primitives.html.

Vandendorpe, Christian. 1999. Du papyrus à l’hypertexte essai sur les mutations du texte et de la lecture. Paris: La Découverte. http://vandendorpe.org/papyrus/PapyrusenLigne.pdf.

Contenus additionnels

Stéfan Sinclair se présente pour la collection Parcours Numériques

Crédits : Parcours Numériques

Source

Proposé par auteur le 2014-03-01

Les potentialités du texte numérique par Stéfan Sinclair

Crédits : Parcours Numériques

Source

Proposé par auteur le 2014-03-01

Calibre : outil de conversion et d’extraction de textes

Crédits : Calibre

Source (archive)

Proposé par auteur le 2014-03-01

Google Ngram Viewer : outil de visualisation de fréquence de mots dans un corpus et une période donnés

Crédits : Google

Source (archive)

Proposé par auteur le 2014-03-01

Voyant Tools - Reveal Your Texts : outil de visualisation et d’analyse de textes numériques développé par Stéfan Sinclair et Geoffrey Rockwell

Crédits : Voyant Tools

Source (archive)

Proposé par auteur le 2014-03-01

TAPoR - Text Analysis Portal for Research : portail d’analyse de textes pour la recherche

Crédits : TAPoR

Source (archive)

Proposé par auteur le 2014-03-01

Text mining - Bamboo DiRT - Digital Research Tools : annuaire d’outils de recherche numérique

Crédits : Bamboo DiRT

Source (archive)

Proposé par auteur le 2014-03-01

Stéfan Sinclair

Stéfan Sinclair est professeur associé en Humanités numériques au département de Langues, Littératures et Cultures à l’Université McGill. Il s’intéresse au design, au développement, à l’usage et à la théorisation des outils pour les humanités numériques, particulièrement dans le domaine de la visualisation et de l’analyse de texte. Il a mené et participé à différents projets comme Voyant Tools, the Text Analysis Portal for Research (TAPoR), the MONK Project, the Simulated Environment for Theatre, the Mandala Browser et BonPatron. Il est l’auteur de nombreuses publications en rapport avec la recherche et l’enseignement des Humanités numériques, dont Visual Interface Design for Digital Cultural Heritage, co-écrit avec Stan Ruecker et Milena Radzikowska (Ashgate 2011).

Geoffrey Rockwell

Geoffrey Rockwell est professeur de Philosophy and Humanities Computing à l’Université d’Alberta au Canada. Il est à la tête du projet TAPoR (Text Analysis Portal for Research), portail canadien d’analyse de textes. Il est également l’auteur de l’ouvrage Defining Dialogue : From Socrates to the Internet (Humanity Books).