Gestion des données, partage et conservation pérenne avec le Data Management Plan
Aurore Cartier, Magalie Moysan, Nathalie Reymonet, « Gestion des
données, partage et conservation pérenne avec le Data Management
Plan », Étienne Cavalié, Frédéric Clavert, Olivier Legendre, Dana Martin (dir.), Expérimenter
les humanités numériques (édition augmentée), Presses de
l’Université de
Montréal, Montréal, 2017, isbn : 978-2-7606-3837-2, https://www.parcoursnumeriques-pum.ca/9-experimenter/chapitre11.html.
version 0, 01/09/2017
Creative
Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Chapitre uniquement disponible dans la version numérique augmentée de cet ouvrage.
Dans cette contribution, nous présentons les problématiques concrètes de la gestion et du partage des données, ainsi que les freins et leviers associés, avant de détailler les caractéristiques d’un plan de gestion des données sur la base d’un retour d’expérience de la ComUEComUE : Communauté d’Universités et d’Établissements.↩︎ Université Sorbonne Paris Cité (USPC).
Le partage et la valorisation des données de la recherche sont devenus des enjeux importants pour les organismes financeurs, les institutions de recherche et les chercheurs eux-mêmes. Une démarche formalisée et anticipée de gestion des données constitue aujourd’hui une condition nécessaire à ce partage. Elle garantit d’une part des résultats fiables et réutilisables sur le long terme, d’autres part une compréhension, une ouverture et la possibilité d’une réutilisation de ces résultats par d’autres chercheurs. Si les politiques françaises n’en sont encore qu’au stade incitatif, de nombreuses actions montrent une accélération dans le domaine de l’ouverture et du partage des données. Bien que récente, la question des données n’est pas nouvelle. En sciences humaines et sociales (SHS), ces préoccupations font écho à diverses initiatives comme celles menées par le réseau QuételetAvec la mise à disposition d’enquêtes.↩︎ depuis le début des années 2000. Le mouvement s’amplifie au cours des années 2010 sous l’influence de l’ouverture des données administratives (Open Data), confirmée par les dispositions de la loi sur le numériquePromulguée le 7 octobre 2016, la loi « pour une République numérique » (Loi N°2016-1321) prévoit une obligation de diffuser en ligne les principaux documents et données des organismes publics (voir l’article 6) s’ils sont produits de façon numérique. Elle favorise également l’accès ouvert aux publications scientifiques de la recherche publique. Cette disposition va dans le sens de la loi du 22 juillet 2013 (Loi N°2013-660 relative à l’enseignement supérieur et à la recherche) qui, à l’article L112-1 du Code de la recherche, fixe comme l’un des objectifs de la recherche l’organisation de l’accès libre aux données scientifiques. Le CNRS et la Conférence des présidents d’universités (CPU) s’accordent également sur cette orientation (Décret N°2015-1151, CPU, 2015).↩︎. Une partie de cette dynamique vient également des éditeurs commerciaux incitant davantage les chercheurs à fournir leurs données en complément de leur publication au risque d’une appropriation – par le secteur privé – de données financées par le secteur public (« LIBER Responds To Elsevier’s Text and Data Mining Policy » 2014).
De nouvelles perspectives pour la recherche sont néanmoins attendues : fouille de textes (text-mining), analyse statistique, fouille sémantique etc. sur de grandes masses de données. Comme le souligne Olivier Le Deuff, la « culture numérique oblige à s’interroger pleinement sur les compétences informatiques requises notamment lors de l’implication au sein de projets qui reposent sur d’importants corpus de données à traiter » (2012). La donnée s’érige désormais en matériau et renforce par ailleurs la confusion entre donnée informationnelle, intervenant dans un processus de raisonnement et donnée informatique, champ d’information défini en vue d’un traitement automatique. Ces évolutions suscitent chez les chercheurs un certain enthousiasme mais aussi de nombreuses réserves quant au renouveau réel qui en découle pour la discipline (Bourdeloie 2014). De sorte qu’à ce jour, la gestion et l’ouverture des données de la recherche ne sont pas une nécessité admise par tous les chercheurs. Dans les faits, en dépit d’un discours institutionnel soulignant les enjeux éthiques, scientifiques (Comité d’éthique du CNRS 2015) ou économiques (Demarthon 2012), les initiatives se réduisent souvent à des démarches individuelles, ou se cantonnent aux domaines dans lesquels la gestion et la réutilisation de données conditionnent l’exercice même de la recherche. On pense notamment au secteur de l’astrophysique ou de la génomique (Anagnostou et al. 2015) tandis que les sciences humaines et sociales comme d’autres restent encore en retrait (Piwowar 2011).
Plusieurs freins sont à l’origine de cet écart entre les aspirations et la pratique. D’une part une certaine ambiguïté de la législation française quant au statut des données produites dans le cadre de la recherche publiqueEn tant qu’informations issues de la recherche publique, elles peuvent être considérées comme relevant de la loi CADA (Loi N°78-753 portant amélioration des relations entre l’administration et le public, 1978) même si les exceptions prévues par l’article 11 permettent de les en exclure.↩︎ : venant en appui d’une œuvre originale de l’esprit, les données peuvent bénéficier de la protection du droit d’auteur ou de droits voisins comme ceux relatifs à la protection des bases de donnéesCf. Loi N°2006-961 relative au droit d’auteur et aux droits voisins dans la société de l’information, 2006.↩︎ ou au même titre que d’autres données publiques jugées « sensibles », tomber sous la protection d’autres dispositifs juridiques (CNILCNIL : Commission nationale de l’informatique et des libertés.↩︎, défense, exception culturelle etc.). À ce cadre peuvent s’ajouter d’autres enjeux de valorisation et de transfert de technologie (Pénin 2011) freinant le partage et la réutilisation des données par ailleurs contraints par le durcissement des politiques d’éditeurs en matière d’ouverture et de fouille des données. Le coût des infrastructures de stockage et d’archivage sont également des obstacles. Ces structures nécessitent une planification à long terme que les modèles économiques actuels peinent à inclure. En réponse, les communautés scientifiques s’organisent autour d’infrastructures de grande ampleur recevant un soutien financier national ou européen. Le manque d’« interopérabilitéCette notion majeure dans le partage d’informations numériques traduit la capacité des données à être intégrées dans d’autres systèmes que ceux qui les ont produits, grâce aux métadonnées qui décrivent les données pour faciliter leur compréhension et leur réutilisation par d’autres.↩︎ » des données et la multiplicité des structures de recherche françaises sont également en cause. Une enquête conduite à l’Université de Californie Los Angeles (Wallis, Rolando, et Borgman 2013) met ainsi en évidence le manque de confiance des chercheurs envers les données de leurs confrères. Les scientifiques privilégient souvent les informations recueillies dans un cercle restreint, freinant ainsi l’interdisciplinarité. Les données produites par d’autres ne constituent que rarement la source principale de leur projet de recherche. Enfin, deux études successives (Tenopir et al. 2015 ; 2011) menées à l’Université du Tennessee sur plus de 1 300 chercheurs, font principalement ressortir le manque de temps (54%), le manque de moyens financiers (40%), l’absence ou la méconnaissance d’infrastructures correspondant (24%), le manque de standards (20%) ou encore l’absence d’obligation (17%), ce qui souligne l’influence des politiques institutionnelles par rapport aux initiatives individuelles.
Un effort important d’accompagnement et de médiation reste donc à accomplir au sein des établissements de recherche pour permettre de lever progressivement ces obstacles. Nous tâcherons d’identifier les leviers susceptibles d’œuvrer en ce sens en insistant notamment, sur la base d’un retour d’expérience mené au sein de la ComUE Université Sorbonne Paris Cité, sur l’intérêt, la démarche de rédaction et la promotion des plans de gestion de données des communautés de recherche.
L’étude récente (Fecher, Friesike, et Hebing 2015) de l’Institut pour Internet et la société relève parmi les causes de cette évolution, l’expression de stratégies claires de la part des gouvernements, institutions ou financeurs ; la production de guides d’accompagnement et de démarches de sensibilisation adaptée aux différents groupes ; le développement et la promotion d’outils conviviaux, sont aujourd’hui les principaux leviers pointés par les chercheurs pour un partage des données. L’engagement d’organismes financeurs comme la National Science Foundation aux États-Unis ou la Commission européenne imposant pour les projets qu’elle finance, la rédaction de plan de gestion de données, marque un tournant. Les professionnels de l’information scientifique et technique (IST) constituent aujourd’hui des acteurs majeurs pour accompagner ce changement.
Le plan de gestion de données ou Data management plan (DMP) est un document unique décrivant les données produites par un projet de recherche. Il vise à formaliser les processus de gestion, d’ouverture et de préservation des données tout au long d’un projet de recherche. Il s’agit autant d’un élément d’évaluation pour le financeur que d’un outil de bonne gestion pour le chercheur. Ce nouveau livrable requis par la Commission européenne (European commission 2013a) est ancré dans le calendrier des projets et suit le cycle de vie des données.
Au sein de la ComUE Sorbonne Paris Cité (USPC), les professionnels de l’IST, spécialistes du partage des données (base de données, archives ouvertes), de leur description par des métadonnées normées et de leur conservation (archivage pérenne) ont été parmi les premiers à s’emparer du sujet pour accompagner les chercheurs investis de financements Horizon 2020, en partenariat avec les ingénieurs-projet du réseau recherche Europe de l’USPC. Leur implication à différents niveaux s’est traduite par des programmes de sensibilisation (Cartier, Moysan, et Reymonet 2015b), par la rédaction de guides d’accompagnement (Cartier, Moysan, et Reymonet 2015a) ou par la prise en main de techniques. Cependant, l’élaboration de plans de gestion de données a mis au jour la nécessité de faire émerger de nouvelles collaborations entre chercheurs et services d’appui à la recherche. Le rapprochement inédit des professionnels de l’IST et des ingénieurs-projet chargés d’accompagner les chercheurs dans le montage des projets de recherche a été une première étape dans le décloisonnement entre différents corps de métier que nécessite, au sein des établissements, la réalisation de plans de gestion de données.
Si des outils informatisés, comme DMPOnline du Digital Curation Centre ou DMPTool de l’Université de Californie, facilitent sa rédaction, le plan de gestion des données peut également prendre la forme d’un simple tableur ou encore d’un document texte. Son calendrier répond à trois grandes phases du projet et décrit les choix réalisés par l’équipe de recherche en termes de format de données, normes de métadonnées, sécurité d’accès, durée d’archivage, ainsi que de coûts associés à la gestion des données, du début à la fin du projet, voire après son achèvement.
1. Informations sur le projet
L’ingénieur-projet dispose des renseignements administratifs permettant de faire le lien entre le DMP et le projet : nom du projet, référence de la convention de financement, nom du coordinateur du projet. Ces éléments figuraient déjà dans la réponse à l’appel à projets.
2. Responsabilité des données
Le chercheur responsable des données est désigné par l’équipe dès le début et pour toute la durée du projet. Il est choisi pour sa vision transversale du projet sur tous les types de données à la fois. C’est lui qui assure la coordination de la rédaction du DMP : il est responsable de la création et de la mise à jour du DMP, ainsi que de sa mise en œuvre. Il peut être différent du coordinateur scientifique. L’ingénieur-projet, ou le juriste, indique le régime de la propriété intellectuelle des données liées au projet, élément primordial pour l’exploitation ultérieure des données. La propriété des données est fixée par l’accord de consortium définissant le rôle des partenaires du projet. Il fait en particulier la distinction entre les résultats propres à une équipe et les résultats communs à tous les partenaires du projet.
3. Ressources nécessaires à la mise en œuvre du DMP
Le chercheur, accompagné de l’ingénieur-projet, évalue les ressources nécessaires et les montants financiers correspondants :
- Matériel. Le chercheur, s’il en a l’expérience, ou un informaticien, estiment les espaces de stockage de données informatiques nécessaires au cours du projet, ainsi que le coût de l’hébergement sur une plate-forme d’archivage à l’issue du projet. Les espaces à prévoir pour d’autres supports (papier, objets) sont également évalués.
- Personnel. Le chercheur et l’ingénieur-projet estiment le temps et les compétences requis à la mise en œuvre du DMP et le coût correspondant à la gestion, la curation et la conservation à long terme des données. La notion de curation recouvre les diverses opérations de traitement des données : sélection, nettoyage, normalisation et enrichissement. Pour cela, des formations, dont le coût est également à prévoir, peuvent être nécessaires.
4. Description des jeux de données
Selon le projet, un jeu de données peut recouvrir des réalités différentes. Un ou plusieurs jeux de données peuvent être liés au projet de recherche, et désigner soit un lot techniquement homogène, soit un ensemble intellectuellement cohérent mais composé de lots techniquement hétérogènes. Par exemple, un jeu peut regrouper des séries chronologiques portant sur une même période mais sur des objets de natures différentes. Le chercheur est le plus à même de décrire le jeu de données jeuN utilisé dans le cadre du projet. Après avoir identifié le ou les jeux de données, il précise la nature des données : données d’enquête, échantillons, code logiciel, corpus de texte, photographies, etc. Il indique la méthode de production ou d’élaboration des données utilisées (instrument de mesure, enquête, observation, simulation) et précise s’il s’agit de données produites au cours du projet, d’une réutilisation de données préexistantes, ou des deux. Le chercheur renseigne les formats de données, numériques (tel que CSV), ou non-numériques (papier imprimé, VHS). Il est conseillé de privilégier des formats ouverts ou largement utilisés, tels que XML ou PNG, afin de faciliter le partage.
5. Stockage, accès et sécurité du jeuN au cours du projet
Le chercheur décrit le support des données : support papier ou autre support physique. Dans le cas de données numériques, un informaticien peut conseiller le chercheur. Il prévoit la volumétrie approximative des données en mètres linéaires ou en mégaoctets. Celle-ci sera réévaluée au cours du projet. Il décrit le type d’hébergement des données : matériel et lieu physique de stockage. Le chercheur, avec l’aide d’un informaticien, indique les risques par rapport à la sécurité des données, tels que l’atteinte aux exigences de confidentialité, à la disponibilité et à l’intégrité des données tout au long de la phase active du projet. Un référentiel de menaces est disponible dans la méthode EBIOSEBIOS : Expression des besoins et identification des objectifs de sécurité. En savoir plus.↩︎.
6. Métadonnées : documentation et organisation du jeuN
Le chercheur, accompagné de son référent en IST (archiviste,
bibliothécaire, ou documentaliste), précise comment seront décrites,
avec des métadonnées, les données numériques utilisées au cours du
projet. Les métadonnées sont classiquement divisées en métadonnées
descriptives, administratives et métadonnées de structure. Le
chercheur renseigne les normes de métadonnées utilisées : certaines
disciplines s’appuient sur des standards qui leur sont propres, qui
doivent être utilisés en priorité pour assurer l’interopérabilité
entre les différents systèmes et utilisateurs. En SHS, il pourra
s’agir de DDI
(Data Documentation Initiative) ou du Dublin
Core. Le répertoire du Digital
Curation Centre liste les formats disciplinaires existants en
SHS. En France, Catherine
Morel-Pair propose un panorama des standards et usages de
métadonnées pour les plate-formes de données en SHS (Morel-Pair 2014). Le chercheur indique
qui renseignera les métadonnées et le cas échéant, à l’aide de quels
outils (Dublin
Core Generator ou DataCite
Metadata Generator tool). Le chercheur prévoit une
arborescence de classement des données et des règles de nommage des
jeux de données afin d’en faciliter l’accès et le stockage au cours du
projet, et à terme l’archivage. Par exemple, les fichiers sont nommés
selon la syntaxe
. Il
précise s’il existe une documentation associée pour assurer
l’intelligibilité à long terme des données (codes, abréviations,
version des logiciels de lecture).
7. Dissémination à l’issue du projet
Dans le cas d’une recherche sur appel à projets, un contrat lie le financeur et le bénéficiaire et précise le principe général de diffusion qui s’applique aux données produites. Par exemple, dans le cadre de Horizon 2020, l’article 29.3 de la convention de financement prévoit que les données et métadonnées nécessaires à la validation des résultats doivent être déposées dans des entrepôts dédiés et placées sous une licence libre autorisant leur exploitation et leur libre réutilisation par une tierce partie (European commission 2014). Cette information est disponible auprès de l’ingénieur-projet. Le chercheur détermine les conditions de partage et de réutilisation des données ainsi que la licence, qui peut être libre comme EtalabEn savoir plus sur la Licence Ouverte conçue par Etalab.↩︎ ou GNUEn savoir plus sur la licence publique générale GNU.↩︎, ou faire l’objet de contreparties économiques précisées par contrat. Si un accès aux données via un site n’est pas prévu dans le cadre du projet, il convient de rechercher une base de données disciplinaire dans laquelle les données pourront être déposées, comme par exemple Speech and Language Data Repository pour les données orales et/ou linguistiques. Le répertoire d’entrepôts re3dataRegistry of Research Data Repositories. En savoir plus.↩︎ permet de s’orienter parmi les différentes possibilités. Pour des raisons éthiques, juridiques ou financières, les données sensibles peuvent nécessiter une protection spécifique et à ce titre échapper au principe général de diffusion. Le chercheur, accompagné de son service juridique, identifie et définit les critères de protection des données potentiellement sensibles (nominatives, stratégiques, rares). Il indique aussi la durée de l’embargo qu’il appliquera avant la diffusion des données. L’embargo est une protection temporaire qui instaure un délai de plusieurs mois ou années avant la diffusion des données avec l’autorisation du propriétaire. À la fin du projet, le chercheur précise s’il existe des publications associées aux données.
8. Sélection et archivage des données
Le chercheur prévoit également, avec l’appui de son archiviste, le sort des données à l’issue du projet, qu’elles aient été diffusées ou non. Ils sélectionnent les données en raison de leur valeur scientifique, juridique ou patrimoniale, car toutes n’ont pas vocation à être archivées sur le long terme. L’administration des archives délivre un visa avant toute destruction de données. Par exemple, les données non reproductibles seront conservées, tout comme celles dont le coût de production est extrêmement élevé. Les durées de conservation doivent prendre en compte les exigences légales et réglementaires existantes et peuvent aller de quelques mois à l’éternité. Ainsi, le décret 2006-6 du 4 janvier 2006 fixe la conservation des données de patients à 20 ans minimumCf. Décret N°2006-6 relatif à l’hébergement de données de santé à caractère personnel, 2006.↩︎. Le chercheur évalue le volume final des données, par exemple : N Giga-octets. Conseillé par son archiviste, il choisit la plate-forme d’archivage pérenne sur laquelle les données seront archivées à long terme. Certaines universités disposent de conventions avec des plate-formes, qui doivent être agréées par le Ministère de la Culture.
Exemple d’un plan de gestion de données
L’exemple ci-dessous est issu d’un projet réel. Certains ajustements ont néanmoins été réalisés à des fins de diffusion.
Présentation du projet
Depuis mars 2011, le Centre de données socio-politiques (CDSP) est fortement impliqué dans la mise en place de l’équipement d’excellence DIME‐SHSDonnées, Infrastructures et Méthodes d’Enquête en Sciences Humaines et Sociales. En savoir plus sur l’Equipex DIME-SHS.↩︎, lauréat de l’appel à projets 2010 des « investissements d’avenir ». Cet équipement vise à doter la France d’une nouvelle structure en matière de collecte, d’enrichissement et de diffusion des données quantitatives, qualitatives et web. En particulier, il s’agit de mettre en place le panel Internet ELIPSS (Étude longitudinale par Internet pour les sciences sociales) constitué à partir d’un échantillon aléatoire de la population résidant en France« Le panel ELIPSS est un dispositif d’enquêtes par internet destiné à la communauté scientifique ». En savoir plus.↩︎. Les propositions d’enquête se font lors d’appels à projets. Ce sont les membres du Comité scientifique et technique (CST) qui sont chargés de sélectionner les enquêtes administrées aux panélistes.
Version du DMP, date DMP version, date |
V2, 2 février 2016 |
Date de la première version Date of the first version |
29 janvier 2016 |
Identifiant de l’appel à projets Identification of the project call |
DIME –SHS ELIPSS |
Thématique Topic |
Sciences humaines et sociales |
Référence de la convention de financement Grant agreement number |
ANR-10-EQPX-19-01 |
Programme de recherche Research program |
EQUIPEX - Données, Infrastructures et Méthodes d’Enquête en Sciences Humaines et Sociales |
Acronyme du projet Project acronym |
ELIPSS |
Titre du projet Project title |
Étude longitudinale par Internet pour les sciences sociales |
Objectifs du projet Goals of the project |
ELIPSS est un panel internet, représentatif de la population
française, constitué dans sa phase pilote de 1 039 personnes invitées
à participer tous les mois à des recherches dans de nombreux
domaines (santé, environnement, politique, sport et
loisirs…). Ce projet vise à combler l’absence de moyens d’enquête par
questionnaire propres à la recherche française. L’étude pilote a débuté en 2012 afin de définir la procédure de recrutement, d’affiner la méthodologie, de mettre au point les procédures de gestion de panel et de production d’enquêtes et de développer les outils informatiques. À partir de 2016, le panel ELIPSS sera constitué de 3 500 individus. L’enquête annuelle ELIPSS, dont il sera question dans ce DMP, a pour objectif de disposer de nombreuses variables socio-démographiques, ainsi que de variables de croisement et d’indicateurs fréquemment utilisés en sciences humaines et sociales. Le questionnaire a été construit en collaboration avec plusieurs chercheurs spécialistes des thèmes abordés En outre, les questions retenues sont très largement issues d’enquêtes existantes et une grande partie est répétée chaque année. |
Mots-clefs du projet Keywords |
Sciences humaines et sociales, Panel Internet, Enquêtes quantitatives, Questionnaire |
Coordinateur/Bénéficiaire Coordinator/Recipient |
Équipe ELIPSS |
Responsable scientifique du projet Project leader |
Équipe ELIPSS elips.cdsp@sciencespo.fr |
Affiliation et unité de rattachement du responsable
scientifique Administrative affiliation of the project leader |
Centre de données socio-politiques (CDSP), Sciences Po (IEP Paris) |
Nom du responsable de la gestion des données au cours du
projet de recherche Name of the person in charge of data management during the project |
Équipe ELIPSS |
Propriété des données Data property |
En règle générale, les projets retenus dans le cadre des appels à
projets ELIPSS font l’objet d’une convention établissant la
copropriété des données entre l’équipe de recherche porteuse du projet
et DIME‐SHS. Cette convention prévoit le dépôt des données au
CDSP et autorise la diffusion des données à la communauté scientifique
après une période d’exclusivité d’un an maximum pour l’équipe de
recherche porteuse du projet. Dans le cas de l’Enquête annuelle, que nous avons pris comme exemple, le propriétaire des données est la Fondation Nationale des Sciences Politiques (FNSP). |
Matériel Hardware |
Les coûts sont intégrés dans le financement du projet ELIPSS. Ils comprennent l’usage de plusieurs machines virtuelles sur un hyperviseur. De tels coûts sont donc très difficiles à ventiler. |
Personnel Staff |
20 jours/homme sont nécessaires en moyenne pour la gestion, curation
et conservation d’un jeu de données. Les coûts sont intégrés dans le financement du projet ELIPSS et sont donc très difficiles à ventiler. |
Formations Training |
Les activités d’apurement, anonymisation, normalisation et enrichissement des données font partie des activités quotidiennes des chargé(e)s d’études du CDSP, qui est l’un des trois centres français de données en sciences sociales. |
Montant financier* Costs |
Les coûts sont intégrés dans le financement du projet ELIPSS. |
Nombre de jeu(x) de données Number of datasets |
Dans le cadre du panel ELIPSS on produit en moyenne une enquête par
mois. L’enquête annuelle est répétée chaque année. Trois jeux de données existent actuellement (2013, 2014, 2015). Les données de la première vague sont documentées et publiées sur le portail Quételet. |
Jeux de données n°1 |
Cette section a pour vocation de présenter le jeu de données
qui sera produit et/ou reçu dans le cadre du
projet. This section aims to generally present the type of data that will be produced and/or received in connection with the project |
Identifiant et nom du jeu de données* Reference and name of data set |
fr.cdsp.elipss.ddi.2013.03.ea Enquête annuelle – vague 1 (2013) |
Nature des données* Nature of data |
Données d’enquêtes individuelles et données géographiques issues du recensement. |
Réutilisation de données existantes Reuse of existing data |
Certaines informations saisies par les panélistes lors de l’enquête
annuelle 2013 ont été réutilisées dans celle de 2014. Le fichier diffusé contient des variables provenant de sources différentes. Elles sont issues : > de l’Enquête annuelle - vague 2 (2014) ; > du recensement de la population 2011 (type de commune d’habitation…). S’y ajoutent les variables de pondération. |
Méthode de production des données* Method of production of data |
Les données ont été recueillies par questionnaire auto-administré sur Internet, dans le cadre du panel ELIPSS. Les membres du panel sont sollicités chaque mois pour une interrogation maximale de 30 minutes au moyen d’une tablette mise à leur disposition. La conception des questionnaires et la collecte des données en ligne reposent sur le logiciel Blaise. |
Formats des données* (formats originels ou de
conversion) Data standard |
Les données d’enquête sont diffusées en format SPSS. |
Jeu de données n°[n] | — |
… | … |
Support des données Medium of data |
Dans le cadre du projet ELIPSS, nous n’utilisons pas de support papier ou autre support physique. |
Volumétrie prévisionnelle* Projected volume |
Environ 2 Go sont nécessaires pour les enquêtes produites au cours d’une année. |
Type d’hébergement Data hosting |
Machines virtuelles sur hyperviseur dédié aux données de la recherche, hébergées dans les locaux sécurisés de la DSI de Sciences Po (avec dispositif de sauvegarde). |
Risques menaces ou sur les données Risks or threats to data |
Nous avons identifié plusieurs types de risques :
- Destruction accidentelle. Une fois le terrain fini, les données brutes sont sauvegardées sur un serveur BLAISE auquel trois ou quatre personnes ont accès. Ensuite, le chargé d’études les télécharge sur son poste pour la phase d’apurement, normalisation et enrichissement. Pendant cette étape et jusqu’au moment de leur diffusion, les données sont sauvegardées uniquement sur son poste de travail, ce qui, en cas de panne, pourrait signifier la perte de ces fichiers et du travail réalisé. - Accès non autorisé. Le statisticien de l’INED, en chargé de la pondération des données et qui est présent au CDSP un jour par semaine, garde parfois ses fichiers de travail sur son ordinateur portable. Celui-ci pourrait lui être volé. Actuellement, la version diffusée des fichiers de données et de leur documentation est accessible à plusieurs membres de l’équipe ELIPSS par les moyens d’une plate-forme d’échange SAMBA. Un risque d’accès non autorisé existe. - Dé-synchronisation des fichiers diffusés sur les différentes plate-formes de diffusion. Vu la variété des procédures de publication et des formats des fichiers : XML sur Nesstar, ZIP avec PDF et SPSS sur le portail Quételet. |
Garantie de confidentialité des données Data privacy |
La déclaration du dispositif ELIPSS a été inscrite au registre CIL du
CNRS sous le numéro 2‐12030 avec pour finalité du traitement la
réalisation d’enquêtes à des fins de recherche. Cette déclaration
décrit précisément le système d’information mis en œuvre, les moyens
utilisés pour assurer la sécurité et la confidentialité des données,
la procédure de gestion des enquêtes (assurée par le CDSP) et la
gestion des contacts avec les panélistes (assurée à l’INED jusqu’en
janvier 2015). Les données nominatives et les données d’enquêtes sont
stockées dans deux systèmes d’information différents. Le traitement
pour les données nominatives du panel a été enregistré au registre CIL
de l’INED sous le numéro 2012‐CIL‐0012. D’un point de vue technique, le cryptage des données et les restrictions mises en place pour contrôler l’appariement des données garantissent également la confidentialité. Avant d’être diffusées, après une période d’exclusivité de douze mois maximum, les fichiers sont anonymisés de façon à rendre l’identification directe et indirecte impossible. Les fichiers de données sont diffusés aux équipes de recherche productrices par une plate-forme d’accès à distance sécurisée et ceux destinés à la communauté scientifique sont diffusés par le portail du Réseau Quételet. |
Garantie d’intégrité et de traçabilité Data integrity and traceability |
Authentification personnelle sur les outils. Suivi de la phase de production par plusieurs personnes. |
Lecture des données* Data reading |
La lecture des données nécessite le recours à SPSS ou bien à un autre logiciel de type Stat Transfer pour convertir les données au format souhaité. |
Garantie de disponibilité des données Data availability |
L’équipe ELIPSS et plus précisément la coordonnatrice de production des enquêtes ELIPSS fournit les données aux équipes de recherche porteuses des projets, une fois que la phase d’apurement et enrichissement des données est finie. |
Gestion des accès* Access procedures |
Au cours du terrain, les données sont stockées sur un serveur BLAISE sécurisé auquel uniquement quelques membres de l’équipe ELIPSS ont accès par mot de passe. |
Échanges et partage* Data sharing |
Les fichiers de données sont diffusés aux équipes de recherche productrices par une plate-forme d’accès à distance sécurisée. La sécurité est assurée par cryptage des fichiers système et par un accès en https. Par ailleurs, les journaux des opérations sont enregistrés quotidiennement, les liens de téléchargement sont à durée de vie courte, les dossiers à télécharger sont protégés par mot de passe et le nombre de téléchargements autorisés est limité à un par destinataire. |
Standards et formats disciplinaires des
métadonnées* Standards and metadata |
Les jeux de données sont documentés aux normes internationales Data Documentation Initiative (DDI), sous format XML. La documentation a deux parties : La description de l’étude et La description des variables. Au CDSP, nous documentons les données jusqu’au niveau variable (intitulé de la question, consignes aux enquêteurs, filtres, modalités de réponses et tris à plat). |
Mode de production et responsabilité des
métadonnées Method of production and metadata responsibility |
L’enquête annuelle – vague 1 (2013) a été la première à être diffusée
à la communauté scientifique dans le cadre du panel ELIPSS. Des moyens
humains importants ont été mobilisés. Le choix des métadonnées à
renseigner a constitué la première étape. Ensuite, deux chargés
d’études ont produit les métadonnées en accord avec la coordinatrice
de production des enquêtes ELIPSS et les deux coordinatrices du projet
ELIPSS. Le logiciel Nesstar, ainsi que MS Excel et Notepad ++ ont été utilisés pour renseigner les métadonnées. |
Arborescence de classement Tree classification |
Arborescence en cours de validation. |
Règles de nommage des jeux de données Rules for naming data sets |
Actuellement : fr.cdsp.nom_du_projet. nom_de_la_norme_de_documentation. année_de_production_enquête. mois_de_production_enquête.acronyme_enquête Nouvelles règles en cours de validation. |
Documentation associée Relevant documentation |
Plusieurs documents détaillant la procédure de documentation (étapes à suivre etc.) existent au CDSP. |
Principe général de diffusion* General principle of diffusion |
Les fichiers diffusés sont d’accès gratuit pour une utilisation dans
une finalité de recherche. Toute utilisation commerciale est exclue.
L’inscription sur le portail Quételet est nécessaire pour recevoir des
fichiers de données. Le formulaire d’engagement prévoit, entre autres : > le respect de la confidentialité des répondants ; > la non-rediffusion des données à un tiers ; > la citation de la source des données dans les publications ; > la destruction du fichier de données à l’issue de la recherche. |
Type de licence Type of license |
La signature d’un engagement d’utilisation de données est nécessaire. |
Potentiel de réutilisation* Potentiel for reuse |
De manière générale, les chercheurs français et étrangers, les
doctorants, post-doctorants et les étudiants de master en sciences
humaines et sociales peuvent accéder aux données diffusées par le
CDSP. Dans le cas particulier de l’Enquête annuelle, une réutilisation des données dans le cadre du projet est également prévue. Une majorité des variables issues du module signalétique (état civil du panéliste, travail et formation, description socio-démographique du ménage, logement et quartier et revenus et patrimoine) et certaines variables du module barométrique (liens sociaux, croyances religieuses, pratiques culturelles, etc.) sont systématiquement appariées aux autres fichiers de données ELIPSS diffusés. |
Existence de publications associées aux
données Existing publications related to the data |
Oui |
Dépôt et dissémination des données* Data repository and access |
Une fois documentées, les enquêtes sont publiées sur le portail
Quételet. Elles sont également consultables (pas téléchargeables) sur le serveur Nesstar du CDSP. Les traitements statistiques en ligne ne sont pas disponibles dans le cas des enquêtes ELIPSS, vu les effectifs réduits du panel dans sa phase pilote (1039 panélistes). |
Identification des jeux de données
sensibles Identification of sensitive data sets |
Données nominatives concernant les panélistes. |
Justification du principe d’exception aux conditions générales
de diffusion* Justification for the exception to the general principles of diffusion |
Données à caractère personnel. |
Mesures de protection Precautionary mesures |
Les données nominatives seront détruites une fois le projet ELIPSS fini. Par ailleurs, dans le cas de variables où les effectifs seraient trop faibles (filtres, etc.), des regroupements sont réalisées afin de garantir l’anonymat des répondants. |
Embargo* Embargo period |
Dans le cadre du panel ELIPSS, les données sont diffusées après une
période d’embargo de 12 mois. L’Enquête annuelle n’est pas concernée par cet embargo ; les données sont diffusées une fois anonymisées et documentées. |
Sort des données à l’issue du projet Fate of data at the end of the project |
Données mises à disposition de la communauté scientifique une fois anonymisées et documentées. |
Sélection des données* Data selection |
Les données n’ont pas toutes vocation à être archivées sur le long terme. Les données nominatives seront détruites une fois le projet ELIPSS fini. |
Volume final des données* Final volume of data |
2 Go par an. |
Durées de conservation préconisée* Recommended lifetime |
Conservation à vie. |
Plate-forme d’archivage* Long term preservation plateform |
Des discussions sont actuellement menées avec le CINES et Sciences Po. |
Crédits : Anne Cornilleau, Alina Danciu, Équipe ELIPSS.
À l’issue de la rédaction du DMP, le chercheur responsable des données dispose d’un document descriptif complet, lui permettant de mettre ses données à disposition de façon intelligible et avec un maximum d’interopérabilité.
La difficulté de ces interactions « idéales » est que les compétences d’appui à la recherche peuvent ne pas exister dans tous les établissements, ou ne pas être connues des chercheurs. Par ailleurs, il manque encore des outils informatisés conformes à la pratique française, le DMP n’étant exigé pour l’instant que pour les projets européens. Ensuite, les Sciences Humaines et Sociales recouvrent des disciplines hétérogènes qui demandent des outils adaptés à leurs besoins spécifiques. Le manque récurrent de connexions entre un outil générateur de DMP et les autres outils de signalement de la recherche, telles que les archives ouvertes pour les publications, alourdit encore la tâche.
Lors de notre expérimentation au sein de l’USPC, la difficulté a été de tester le DMP proposé sur des projets réels, en effet, le programme H2020 n’en est encore qu’à ses débuts. Par ailleurs, la Commission européenne est actuellement le seul financeur – en France – qui préconise l’utilisation d’un tel outil même si la loi sur le numérique laisse espérer une utilisation nationale de ce type de dispositif, avec l’ouverture des données.
Nous tenons à remercier chaleureusement Anne Cornilleau, Alina Danciu et l’Équipe ELIPSS pour la réalisation de cet exemple de plan de gestion de données.
Références
Contenus additionnels
Réaliser un plan de gestion de données
Recommandation de l’OCDE concernant l’accès aux données de la recherche financée sur fonds publics
Crédits : OCDE
Aurore Cartier
Aurore Cartier est archiviste paléographe et conservateur des bibliothèques spécialisée dans le domaine du libre accès aux publications et de l’ouverture des données . Elle est responsable des services à la recherche et coordinatrice des bibliothèques universitaires de médecine au sein d u Service commun de la documentation de l’Université Paris Descartes.
Magalie Moysan
Magalie Moysan est archiviste de formation et travaille au bureau des archives de l’Université Paris Diderot sur les problématiques de collecte, de classement et de valorisation des archives des composantes et des enseignants-chercheurs.
Nathalie Reymonet
Nathalie Reymonet est Manager de l’information scientifique et travaille à la direction d’appui à la recherche et à l’innovation (DARI) de l’Université Paris Diderot, sur l’aide au pilotage de la recherche et en particulier le libre accès.