Matomo

Cartographie historique de Charleville

retour à la liste

Exploration de données historiques (projet "Charleville") par utilisation du langage Python

DOI / Handle

Auteur : sylvain rassat

Bien que totalement normalisés, restructurés et extraits de l’environnement propriétaire, les différents corpus numériques de l'enquête Charleville (édifiés entre 2007 et 2011) n’étaient pas exploitables en tant que base de données relationnelles. Fin 2018, l’identifiant unique (ou clé étrangère) servant à lier toutes les informations n’avait pas été extrait du travail effectué entre 2007 et 2011. En suivant le modèle de certaines expérimentations probantes en SHS, le choix fut pris de traiter les données « mpf » par un emploi modeste de méthodes de datamining associé au langage de programmation interprété Python pour découvrir cet identifiant unique, des liens cachés et des possibilités d’alignements patronymiques. Trouver un modèle commun d’identifiant unique entre cette base de données « Recensement » et celle allouée aux événements ou « BMS » (pour baptême-mariage-sépulture) issue des dépouillements et numérisations des registres paroissiaux et d’état civil était primordial pour exploiter de nouveau ce corpus. Un datamining des données « mpf » a donc été effectué en suivant deux étapes majeures : –le passage en revue de toutes les informations ou occurrences et leur conversion sous une forme compréhensible ; –la vérification des modèles interprétatifs et, plus précisément, des associations éventuellement détectées. Le fichier tabulé contenant les recensements « restructurés » a servi de point de départ à cette recherche, avec la sélection de huit champs informels comme champs exploratoires. Quant à la table « BMF », elle comportait deux champs pouvant faire la jonction avec « Recensement » : –« id_base » ou l’identifiant alphanumérique de chaque individu recensé et défini par l’équipe de l’ANR ; – « id_événement » ou l’identifiant de chaque événement (baptême, mariage, sépulture, etc.) lié au parcours de vie des individus. Néanmoins, le lien entre les événements et les individus s’est avéré difficile à mettre en évidence du fait de l’absence de correspondance claire entre ces deux corpus . Le postulat d’exploration fut d’agréger les données de recensement (une ligne est égale à un individu par année) par le patronyme (nom et prénom) associé à une limite temporelle de recherche de 50 ans. Le passage en revue des données et des associations détectées s’est avant tout déroulé au sein des recensements.

Données

exo-sr3_trie_idu_menage_idu.csv

exo-sr3_trie_idu.csv

exo-sr3_trie_sans_doublon.csv

exo-sr3_trie.csv

exo-sr3.csv

s0_trace_pass_1.txt

s0_trace.txt

s0.py

s1_doublon.txt

s1_trace.txt

s1.py

s2_trace.txt

s2.py

s3_trace.txt

s3.py

s4_trace_menage.csv

s4_trace.txt

s4.py

traitements.pdf

Visualisation

Mots-clés

Charleville-Mézières
Recensement
charleville
Archives historiques
Python (langage de programmation)
Data mining
Python (Computer program language)
Data mining
charleville
Charleville-Mézières
census
historical archives

Auteur :

sylvain rassat

titrefr

Exploration de données historiques (projet "Charleville") par utilisation du langage Python

titreen

Historical data exploration ("Charleville" project) using the Python language

http://nakala.fr/terms#created

2019-03-01

licence

CC-BY-SA-4.0

type

http://purl.org/coar/resource_type/c_5ce6

http://purl.org/dc/terms/creatorfr

sylvain rassat

mots-clésfr

Charleville-Mézières

mots-clésfr

Recensement

mots-clésfr

charleville

mots-clésfr

Archives historiques

mots-clésfr

Python (langage de programmation)

mots-clésfr

Data mining

mots-clésen

Python (Computer program language)

mots-clésen

Data mining

mots-clésen

charleville

mots-clésen

Charleville-Mézières

mots-clésen

census

mots-clésen

historical archives

descriptionfr

Bien que totalement normalisés, restructurés et extraits de l’environnement propriétaire, les différents corpus numériques de l'enquête Charleville (édifiés entre 2007 et 2011) n’étaient pas exploitables en tant que base de données relationnelles. Fin 2018, l’identifiant unique (ou clé étrangère) servant à lier toutes les informations n’avait pas été extrait du travail effectué entre 2007 et 2011. En suivant le modèle de certaines expérimentations probantes en SHS, le choix fut pris de traiter les données « mpf » par un emploi modeste de méthodes de datamining associé au langage de programmation interprété Python pour découvrir cet identifiant unique, des liens cachés et des possibilités d’alignements patronymiques. Trouver un modèle commun d’identifiant unique entre cette base de données « Recensement » et celle allouée aux événements ou « BMS » (pour baptême-mariage-sépulture) issue des dépouillements et numérisations des registres paroissiaux et d’état civil était primordial pour exploiter de nouveau ce corpus. Un datamining des données « mpf » a donc été effectué en suivant deux étapes majeures : –le passage en revue de toutes les informations ou occurrences et leur conversion sous une forme compréhensible ; –la vérification des modèles interprétatifs et, plus précisément, des associations éventuellement détectées. Le fichier tabulé contenant les recensements « restructurés » a servi de point de départ à cette recherche, avec la sélection de huit champs informels comme champs exploratoires. Quant à la table « BMF », elle comportait deux champs pouvant faire la jonction avec « Recensement » : –« id_base » ou l’identifiant alphanumérique de chaque individu recensé et défini par l’équipe de l’ANR ; – « id_événement » ou l’identifiant de chaque événement (baptême, mariage, sépulture, etc.) lié au parcours de vie des individus. Néanmoins, le lien entre les événements et les individus s’est avéré difficile à mettre en évidence du fait de l’absence de correspondance claire entre ces deux corpus . Le postulat d’exploration fut d’agréger les données de recensement (une ligne est égale à un individu par année) par le patronyme (nom et prénom) associé à une limite temporelle de recherche de 50 ans. Le passage en revue des données et des associations détectées s’est avant tout déroulé au sein des recensements.

descriptionen

Although completely standardized, restructured and extracted from the proprietary environment, the various digital corpus of the Charleville survey (built between 2007 and 2011) could not be used as a relational database. At the end of 2018, the unique identifier (or foreign key) used to link all the information had not been extracted from the work carried out between 2007 and 2011. By following the model of certain convincing experiments in SHS, the choice was made to process the “mpf” data by a modest use of datamining methods associated with the interpreted programming language Python to discover this unique identifier, hidden links and possibilities of patronymic alignments. Finding a common model of unique identifier between this "Census" database and that allocated to events or "BMS" (for baptism-marriage-burial) resulting from the analysis and digitization of parish and civil status registers was essential to exploit this corpus again. A datamining of the "mpf" data was therefore carried out by following two major steps: –Reviewing all information or occurrences and converting them into an understandable form; –The verification of interpretative models and, more precisely, of any associations detected. The tabulated file containing the “restructured” censuses served as a starting point for this research, with the selection of eight informal fields as exploratory fields. As for the “BMF” table, it had two fields that could link up with “Census”: - "id_base" or the alphanumeric identifier of each individual identified and defined by the ANR team; - "event_id" or the identifier of each event (baptism, marriage, burial, etc.) linked to the life course of individuals. However, the link between events and individuals proved difficult to identify due to the lack of clear correspondence between these two corpora. The exploration postulate was to aggregate the census data (one row equals one individual per year) by the patronymic (surname and first name) associated with a research time limit of 50 years. The review of the data and the associations detected took place above all within the censuses.

http://purl.org/dc/terms/publisherfr

Centre Roland Mousnier (UMR 8596)

http://purl.org/dc/terms/publisheren

Centre Roland Mousnier (UMR 8596), Paris, France

langues

fr

auteur

sylvain rassat