Minutes, codes, archives de travail liés au dépôt de logiciel "Demo-Hist" à l'agence pour la protection des programmes (APP)
DOI / Handle
Forte d'environ 66000 personnes issues des recensements de la population de Charleville entre la fin du XVIIème siècle et la fin du XIXème siècle, une première base de données « Charleville » a été constituée entre 2007 et 2011 grâce au projet de l'Agence Nationale de la Recherche « Mobilités, Populations, Familles en France du Nord ». La première version, nommé « Fichoz » (Jean-Pierre Dedieu, UMR CNRS 5190), fut développée sous environnement propriétaire FILEMAKER (version Pro 8.5v2) pour servir de système de dépouillements intégré des sources historiques. Une seconde version « MPF »(FILEMAKER version Pro 11), a été développée (Carole Rathier , Université de Bordeaux 3) à partir de la première version afin de répondre aux besoins du projet ANR-06-CORP-005-03 « Mobilités, populations et familles dans la France du Nord de la fin du XVIIe siècle à la fin du XIXe siècle» (retenu par l’European Science Foundation en 2009 et financé à partir de juin 2011 jusqu’en juin 2016). Dès la phase d’auscultation (de janvier à mars 2016) des données en présence et de la base de données les accueillant, il est ressorti que l’utilisation, l’intégrité référentielle et la structuration logique des données étaient grandement affectées par l’absence d’indexation et, plus largement, par le côtés « boite noire » de l’environnement propriétaire FILEMAKER. 2. Genèse de la structuration et base de données « Démo-Hist » version 1.0. Il fallut organiser une campagne de curation de la structuration des données de fond et faire appel à un spécialiste des mégadonnées ou « BIG DATA » en raison de l’importance quantitative et de la complexité des données issues de l’A.N.R. Dans un premier temps, une vérification table par table (19) de l’intégrité des données (doublons, des entrées et saisies erronées et des problèmes dus à l’exportation des données de FILEMAKER à un format tabulé (.xls tabulé, conversion de format de Mac Roman 12, en passant par WIN 5212 pour aboutir au format UFT 8, typographie « times ») a été effectuée (d’avril à juin 2016). Dans un second temps, des tests logiques par deux à n bases ont été lancés (de juillet à septembre 2016) couplés à une ré-indexation et des tests globaux de liaison. De ces deux phases d’auscultations majeures, nous avons tiré les conclusions suivantes : - la grande complexité de la base « MPF » rend très difficile sa lisibilité structurelle, - FILEMAKER, logiciel propriétaire et sous licence payante, crée des problèmes majeurs relativement à la pérennité des données et de leur intégrité en raison de mises à jour majeures rendant presque incompatibles des travaux conçus avec FILEMAKER Pro 8.5v2 - Pro 11 et la version PRO 14 utilisée aujourd’hui, - les versions de FILEMAKER Pro 8.5v2 et Pro 11 ne permettent pas de mettre en place un réel système d’indexation de données stricto sensu rendant l’exploitation collégiale des données de l’A.N.R quasiment impossible. Décision fut, alors, prise d’abandonner complétement ce logiciel propriétaire et la structuration de la base de données issue du travail effectué pendant l’ANR-06-CORP-005-03 pour créer notre nouvel outil ex nihilo. De plus, les données issues du travail de dépouillement archivistique de l’A.N.R ont été utilisées afin d’évaluer l’efficience de la structuration « Démo-Hist ». 3. Spécificités de « Démo-Hist » version 1.0. Cette nouvelle structuration, que nous avons mise en place, devait être interopérable et transposable dans des systèmes informatiques variés (MS-DOS, MAC-OS, LINUX, etc.), dans des systèmes de requêtes différents (SQL, POSTGRESQL, MYSQL par exemple) et exploités par des logiciels spécifiques (MySQLWorkbench, PGADMIN, ACCESS par exemple). Comme nouveautés par rapport à la base de données FILEMAKER, ce nouvel outil devait autoriser le stockage et l’analyse : - du facteur temporel (ponctuel et intervalles), - de la donnée spatiale (ponctuelle, linéaire et surfacique), - des métadonnées relative aux documents archivistiques et aux campagnes de saisie de données associées. Ces trois éléments sont représentés, dans le schéma UML joint au dossier de dépôt de logiciel, respectivement par les tables : - « Temps » pour la temporalité, - « Lieu » et « Feature Type » Geometry pour l’espace, - « Entree » pour créer des métadonnées assujetties aux archives et aux personnes les ayant dépouillés. Un des intérêts supplémentaires de ces trois nouveaux champs par à la base de données de l’ANR est que l’on peut : - lier le temps aux individus (table « Indiv_Evt » et « Individu ») et aux documents archivistiques (« Carac_doc »), - associer la donnée spatiale (table « Lieu » et la cartouche spatiale « Feature Type »Geometry) aux archives et aux individus. 4. Résultats de la première phase test. Nous avons donc confronté notre prototype de structuration aux données « Charleville » en utilisant le logiciel ACCESS comme builder. Il s’est avéré qu’avec cette application opérationnelle, nous avons pu: - réduire considérablement le nombre de tables et de champs inopérants issus du projet « Charleville », - de diviser par 25 le poids de cette prime base de données (environ 10 mégas par rapport aux 250 d’origine) - de diviser par 5 le nombre de champs, passant de 350 à 50. - d’être interopérable avec des logiciels de cartographie (QGIS) et de statistiques (R) gratuites et OPENSOURCE, - d’établir, avec les chercheurs de l’équipe du Centre Roland Mousnier (U.M.R 8596), une série de requête adaptées à leurs problématiques scientifiques. 5. Développements à court terme Grâce à sa grande légèreté physique et simplicité d’utilisation, il sera possible dès la fin de l’injection des données test d’effectuer, soit directement dans le système de gestion de base de données (PGADMIN, ACCESS ou MYSQL WORKBENCH par exemple) soit, après exportation de données discriminées ou non, par des logiciels tiers et autonomes (RSTUDIO, STATA par exemple) les traitements statistiques suivants (cf. tableur de requêtes joints aux archives du dépôt de logiciel): a. Traitements simples axés sur la population complète carlopolitaine (champs informel unique) : - Requête dite discrimante construite sur des opérateurs simples (booléens et/ou arithmétiques) ; - Statistiques simples (pourcentages, moyenne, médiane, effectifs simples et cumulés, étude de classes) ; b. Traitements multivariés (deux à trois champs informels) des informations chronologiques, sociales et spatiales comme éléments d’étude central (conjointement et séparément) : - Requête dite « discrimante » construite sur des opérateurs simples (booléens et/ou arithmétiques) ; - Statistiques simples (pourcentages, moyenne, médiane, effectifs simples et cumulés, étude de classes) ; - Statistiques complexes (corrélations, tests de fiabilité statistique (Khi-Deux ou Pearson par exemple), échantillonnages, projection de type prédictif) ; c. Analyses longitudinales (chronologiques) des liens individuels et collectifs basées sur les notions de proximité, d’éloignement, d’ascendance et de descendance tirée de la théorie des graphes : - Requête dite « discrimante » construite sur des opérateurs simples (booléens et/ou arithmétiques) ; - Statistiques simples (pourcentages, moyenne, médiane, effectifs simples et cumulés, étude de classes) ; - Statistiques complexes (corrélations, tests de fiabilité statistique (Khi-Deux ou Pearson par exemple), échantillonnages, projection de type prédictif, tests de probabilités (Kaplan-Meyer par exemple) ; 6. Développements à moyen et long terme. La seconde version de « Démo-Hist » sera développée afin de passer du stade d’outil d’utilisation locale (simple ou multi-poste à celui de collaboratif en ligne. Cette ouverture méthodologique passera par la mise en place d’un cahier des charges relatif à son architecture web et à son environnement graphique et ergonomique. De plus, la curation des données test (« Charleville ») a mis en avant le besoin important d’utiliser un thesaurus relatif à une sémantique de référence pour uniformiser la donnée sans la dégrader inutilement. Un module « famille » sera ajouté au schéma UML et aux lignes de code actuels afin de gérer et d’étudier les groupes individus comme entités spécifiques avec la prise en compte de leur ascendance et descendance liées au temps et à l’espace.
Données
Visualisation
Mots-clés | Humanités numériques Big data SQL (langage de programmation) Démographie historique Open Access (logiciel) code informatique Charleville-Mézières Logiciels open source digital humanity Big data SQL (Computer program language) Open source software Historical demography code open acces (sofware) Charleville-Mézières |
---|---|
Auteur : | sylvain rassat |
titreen | Minutes, codes, work records related to the "Demo-Hist" software deposit at the Agency for the Protection of Programs (APP) |
titrefr | Minutes, codes, archives de travail liés au dépôt de logiciel "Demo-Hist" à l'agence pour la protection des programmes (APP) |
http://nakala.fr/terms#created | 2016 |
licence | CC-BY-SA-4.0 |
type | http://purl.org/coar/resource_type/c_5ce6 |
http://purl.org/dc/terms/creatorfr | sylvain rassat |
mots-clésfr | Humanités numériques |
mots-clésfr | Big data |
mots-clésfr | SQL (langage de programmation) |
mots-clésfr | Démographie historique |
mots-clésfr | Open Access (logiciel) |
mots-clésfr | code informatique |
mots-clésfr | Charleville-Mézières |
mots-clésfr | Logiciels open source |
mots-clésen | digital humanity |
mots-clésen | Big data |
mots-clésen | SQL (Computer program language) |
mots-clésen | Open source software |
mots-clésen | Historical demography |
mots-clésen | code |
mots-clésen | open acces (sofware) |
mots-clésen | Charleville-Mézières |
descriptionfr | Forte d'environ 66000 personnes issues des recensements de la population de Charleville entre la fin du XVIIème siècle et la fin du XIXème siècle, une première base de données « Charleville » a été constituée entre 2007 et 2011 grâce au projet de l'Agence Nationale de la Recherche « Mobilités, Populations, Familles en France du Nord ». La première version, nommé « Fichoz » (Jean-Pierre Dedieu, UMR CNRS 5190), fut développée sous environnement propriétaire FILEMAKER (version Pro 8.5v2) pour servir de système de dépouillements intégré des sources historiques. Une seconde version « MPF »(FILEMAKER version Pro 11), a été développée (Carole Rathier , Université de Bordeaux 3) à partir de la première version afin de répondre aux besoins du projet ANR-06-CORP-005-03 « Mobilités, populations et familles dans la France du Nord de la fin du XVIIe siècle à la fin du XIXe siècle» (retenu par l’European Science Foundation en 2009 et financé à partir de juin 2011 jusqu’en juin 2016). Dès la phase d’auscultation (de janvier à mars 2016) des données en présence et de la base de données les accueillant, il est ressorti que l’utilisation, l’intégrité référentielle et la structuration logique des données étaient grandement affectées par l’absence d’indexation et, plus largement, par le côtés « boite noire » de l’environnement propriétaire FILEMAKER. 2. Genèse de la structuration et base de données « Démo-Hist » version 1.0. Il fallut organiser une campagne de curation de la structuration des données de fond et faire appel à un spécialiste des mégadonnées ou « BIG DATA » en raison de l’importance quantitative et de la complexité des données issues de l’A.N.R. Dans un premier temps, une vérification table par table (19) de l’intégrité des données (doublons, des entrées et saisies erronées et des problèmes dus à l’exportation des données de FILEMAKER à un format tabulé (.xls tabulé, conversion de format de Mac Roman 12, en passant par WIN 5212 pour aboutir au format UFT 8, typographie « times ») a été effectuée (d’avril à juin 2016). Dans un second temps, des tests logiques par deux à n bases ont été lancés (de juillet à septembre 2016) couplés à une ré-indexation et des tests globaux de liaison. De ces deux phases d’auscultations majeures, nous avons tiré les conclusions suivantes : - la grande complexité de la base « MPF » rend très difficile sa lisibilité structurelle, - FILEMAKER, logiciel propriétaire et sous licence payante, crée des problèmes majeurs relativement à la pérennité des données et de leur intégrité en raison de mises à jour majeures rendant presque incompatibles des travaux conçus avec FILEMAKER Pro 8.5v2 - Pro 11 et la version PRO 14 utilisée aujourd’hui, - les versions de FILEMAKER Pro 8.5v2 et Pro 11 ne permettent pas de mettre en place un réel système d’indexation de données stricto sensu rendant l’exploitation collégiale des données de l’A.N.R quasiment impossible. Décision fut, alors, prise d’abandonner complétement ce logiciel propriétaire et la structuration de la base de données issue du travail effectué pendant l’ANR-06-CORP-005-03 pour créer notre nouvel outil ex nihilo. De plus, les données issues du travail de dépouillement archivistique de l’A.N.R ont été utilisées afin d’évaluer l’efficience de la structuration « Démo-Hist ». 3. Spécificités de « Démo-Hist » version 1.0. Cette nouvelle structuration, que nous avons mise en place, devait être interopérable et transposable dans des systèmes informatiques variés (MS-DOS, MAC-OS, LINUX, etc.), dans des systèmes de requêtes différents (SQL, POSTGRESQL, MYSQL par exemple) et exploités par des logiciels spécifiques (MySQLWorkbench, PGADMIN, ACCESS par exemple). Comme nouveautés par rapport à la base de données FILEMAKER, ce nouvel outil devait autoriser le stockage et l’analyse : - du facteur temporel (ponctuel et intervalles), - de la donnée spatiale (ponctuelle, linéaire et surfacique), - des métadonnées relative aux documents archivistiques et aux campagnes de saisie de données associées. Ces trois éléments sont représentés, dans le schéma UML joint au dossier de dépôt de logiciel, respectivement par les tables : - « Temps » pour la temporalité, - « Lieu » et « Feature Type » Geometry pour l’espace, - « Entree » pour créer des métadonnées assujetties aux archives et aux personnes les ayant dépouillés. Un des intérêts supplémentaires de ces trois nouveaux champs par à la base de données de l’ANR est que l’on peut : - lier le temps aux individus (table « Indiv_Evt » et « Individu ») et aux documents archivistiques (« Carac_doc »), - associer la donnée spatiale (table « Lieu » et la cartouche spatiale « Feature Type »Geometry) aux archives et aux individus. 4. Résultats de la première phase test. Nous avons donc confronté notre prototype de structuration aux données « Charleville » en utilisant le logiciel ACCESS comme builder. Il s’est avéré qu’avec cette application opérationnelle, nous avons pu: - réduire considérablement le nombre de tables et de champs inopérants issus du projet « Charleville », - de diviser par 25 le poids de cette prime base de données (environ 10 mégas par rapport aux 250 d’origine) - de diviser par 5 le nombre de champs, passant de 350 à 50. - d’être interopérable avec des logiciels de cartographie (QGIS) et de statistiques (R) gratuites et OPENSOURCE, - d’établir, avec les chercheurs de l’équipe du Centre Roland Mousnier (U.M.R 8596), une série de requête adaptées à leurs problématiques scientifiques. 5. Développements à court terme Grâce à sa grande légèreté physique et simplicité d’utilisation, il sera possible dès la fin de l’injection des données test d’effectuer, soit directement dans le système de gestion de base de données (PGADMIN, ACCESS ou MYSQL WORKBENCH par exemple) soit, après exportation de données discriminées ou non, par des logiciels tiers et autonomes (RSTUDIO, STATA par exemple) les traitements statistiques suivants (cf. tableur de requêtes joints aux archives du dépôt de logiciel): a. Traitements simples axés sur la population complète carlopolitaine (champs informel unique) : - Requête dite discrimante construite sur des opérateurs simples (booléens et/ou arithmétiques) ; - Statistiques simples (pourcentages, moyenne, médiane, effectifs simples et cumulés, étude de classes) ; b. Traitements multivariés (deux à trois champs informels) des informations chronologiques, sociales et spatiales comme éléments d’étude central (conjointement et séparément) : - Requête dite « discrimante » construite sur des opérateurs simples (booléens et/ou arithmétiques) ; - Statistiques simples (pourcentages, moyenne, médiane, effectifs simples et cumulés, étude de classes) ; - Statistiques complexes (corrélations, tests de fiabilité statistique (Khi-Deux ou Pearson par exemple), échantillonnages, projection de type prédictif) ; c. Analyses longitudinales (chronologiques) des liens individuels et collectifs basées sur les notions de proximité, d’éloignement, d’ascendance et de descendance tirée de la théorie des graphes : - Requête dite « discrimante » construite sur des opérateurs simples (booléens et/ou arithmétiques) ; - Statistiques simples (pourcentages, moyenne, médiane, effectifs simples et cumulés, étude de classes) ; - Statistiques complexes (corrélations, tests de fiabilité statistique (Khi-Deux ou Pearson par exemple), échantillonnages, projection de type prédictif, tests de probabilités (Kaplan-Meyer par exemple) ; 6. Développements à moyen et long terme. La seconde version de « Démo-Hist » sera développée afin de passer du stade d’outil d’utilisation locale (simple ou multi-poste à celui de collaboratif en ligne. Cette ouverture méthodologique passera par la mise en place d’un cahier des charges relatif à son architecture web et à son environnement graphique et ergonomique. De plus, la curation des données test (« Charleville ») a mis en avant le besoin important d’utiliser un thesaurus relatif à une sémantique de référence pour uniformiser la donnée sans la dégrader inutilement. Un module « famille » sera ajouté au schéma UML et aux lignes de code actuels afin de gérer et d’étudier les groupes individus comme entités spécifiques avec la prise en compte de leur ascendance et descendance liées au temps et à l’espace. |
descriptionen | With around 66,000 people from censuses of the population of Charleville between the end of the 17th century and the end of the 19th century, a first "Charleville" database was established between 2007 and 2011 thanks to the project of the National Agency. of the “Mobilities, Populations and Families in Northern France” research. The first version, named “Fichoz” (Jean-Pierre Dedieu, UMR CNRS 5190), was developed under a FILEMAKER proprietary environment (Pro version 8.5v2) to serve as an integrated analysis system for historical sources. A second version "MPF" (FILEMAKER version Pro 11), was developed (Carole Rathier, University of Bordeaux 3) from the first version in order to meet the needs of the project ANR-06-CORP-005-03 "Mobilities, populations and families in northern France from the end of the 17th century to the end of the 19th century ”(selected by the European Science Foundation in 2009 and funded from June 2011 until June 2016). From the auscultation phase (from January to March 2016) of the data present and of the database hosting them, it emerged that the use, the referential integrity and the logical structuring of the data were greatly affected by the absence of indexing and, more broadly, by the "black box" side of the FILEMAKER proprietary environment. 2. Genesis of the “Demo-Hist” structure and database version 1.0. It was necessary to organize a campaign to curate the structuring of the background data and to call in a specialist in big data or "BIG DATA" because of the quantitative importance and the complexity of the data from the A.N.R. First, a table-by-table check (19) of the integrity of the data (duplicates, incorrect entries and entries and problems due to the export of data from FILEMAKER in a tabulated format (tabulated .xls, conversion of Mac Roman 12 format, via WIN 5212 to end up in UFT 8 format, “times” typography) was performed (from April to June 2016). Secondly, logical tests by two to n bases were launched (from July to September 2016) coupled with re-indexing and global binding tests. From these two major auscultation phases, we drew the following conclusions: - the great complexity of the "MPF" database makes its structural readability very difficult, - FILEMAKER, proprietary software licensed for a fee, creates major problems with regard to the sustainability of data and its integrity due to major updates making almost incompatible works designed with FILEMAKER Pro 8.5v2 - Pro 11 and the PRO 14 version used today, - the versions of FILEMAKER Pro 8.5v2 and Pro 11 do not allow a real data indexing system stricto sensu to be set up, making the collegial exploitation of the A.N.R data almost impossible. The decision was then taken to completely abandon this proprietary software and the structuring of the database resulting from the work carried out during ANR-06-CORP-005-03 to create our new tool from scratch. In addition, the data from the archival examination work of the A.N.R was used to assess the efficiency of the "Demo-Hist" structure. 3. Specificities of “Demo-Hist” version 1.0. This new structure, which we put in place, had to be interoperable and transposable in various computer systems (MS-DOS, MAC-OS, LINUX, etc.), in different query systems (SQL, POSTGRESQL, MYSQL for example ) and operated by specific software (MySQLWorkbench, PGADMIN, ACCESS for example). As new to the FILEMAKER database, this new tool was to allow storage and analysis: - the time factor (punctual and intervals), - spatial data (point, linear and surface), - metadata relating to archival documents and associated data entry campaigns. These three elements are represented, in the UML diagram attached to the software deposit file, respectively by the tables: - "Time" for temporality, - "Location" and "Feature Type" Geometry for the space, - "Entry" to create metadata subject to the archives and to the people who looked them up. One of the additional advantages of these three new fields in the ANR database is that we can: - link time to individuals (“Indiv_Evt” and “Individual” table) and to archival documents (“Carac_doc”), - associate the spatial data (“Location” table and the “Feature Type” Geometry spatial cartridge) with the archives and with the individuals. 4. Results of the first test phase. We therefore compared our structuring prototype to the “Charleville” data using the ACCESS software as builder. It turned out that with this operational application, we were able to: - considerably reduce the number of inoperative tables and fields resulting from the "Charleville" project, - to divide by 25 the weight of this premium database (about 10 mega compared to the original 250) - divide the number of fields by 5, from 350 to 50. - to be interoperable with free and OPENSOURCE mapping software (QGIS) and statistics (R), - to establish, with the researchers of the Roland Mousnier Center team (U.M.R 8596), a series of requests adapted to their scientific issues. 5. Short-term developments Thanks to its great physical lightness and ease of use, it will be possible at the end of the injection of the test data to perform, either directly in the database management system (PGADMIN, ACCESS or MYSQL WORKBENCH for example) or, after exporting data, whether discriminated or not, by third-party and stand-alone software (RSTUDIO, STATA for example), the following statistical processing (cf. request spreadsheet attached to the archives of the software repository): To. Simple treatments focused on the entire carlopolitan population (single informal field): - So-called discriminating query built on simple operators (Boolean and / or arithmetic); - Simple statistics (percentages, average, median, simple and cumulative numbers, study of classes); b. Multivariate processing (two to three informal fields) of chronological, social and spatial information as central study elements (jointly and separately): - Query called "discriminating" built on simple operators (Boolean and / or arithmetic); - Simple statistics (percentages, average, median, simple and cumulative numbers, study of classes); - Complex statistics (correlations, statistical reliability tests (Chi-Square or Pearson for example), sampling, predictive type projection); c. Longitudinal (chronological) analyzes of individual and collective links based on the notions of proximity, distance, ancestry and descent drawn from graph theory: - Query called "discriminating" built on simple operators (Boolean and / or arithmetic); - Simple statistics (percentages, average, median, simple and cumulative numbers, study of classes); - Complex statistics (correlations, statistical reliability tests (Chi-Square or Pearson for example), sampling, predictive projection, probability tests (Kaplan-Meyer for example); 6. Medium and long term developments. The second version of "Demo-Hist" will be developed in order to move from the stage of a local use tool (single or multi-workstation to that of online collaborative. This methodological opening will go through the establishment of specifications relating to its web architecture and its graphic and ergonomic environment. In addition, the curation of the test data ("Charleville") highlighted the important need to use a thesaurus relating to a reference semantics to standardize the data without unnecessarily degrading it. A "family" module will be added to the current UML schema and lines of code in order to manage and study individual groups as specific entities taking into account their ancestry and descent linked to time and space. |
http://purl.org/dc/terms/publisherfr | Centre Roland Mousnier (UMR 8596) |
http://purl.org/dc/terms/publisheren | Centre Roland Mousnier (UMR 8596), Paris, France |
langues | fr |
auteur | sylvain rassat |