NakalaPress: Cartographie historique de Charleville

Exploration de données historiques (projet "Charleville") par utilisation du langage Python

DOI / Handle

Auteur : sylvain rassat

Bien que totalement normalisés, restructurés et extraits de l’environnement propriétaire, les différents corpus numériques de l'enquête Charleville (édifiés entre 2007 et 2011) n’étaient pas exploitables en tant que base de données relationnelles. Fin 2018, l’identifiant unique (ou clé étrangère) servant à lier toutes les informations n’avait pas été extrait du travail effectué entre 2007 et 2011. En suivant le modèle de certaines expérimentations probantes en SHS, le choix fut pris de traiter les données « mpf » par un emploi modeste de méthodes de datamining associé au langage de programmation interprété Python pour découvrir cet identifiant unique, des liens cachés et des possibilités d’alignements patronymiques. Trouver un modèle commun d’identifiant unique entre cette base de données « Recensement » et celle allouée aux événements ou « BMS » (pour baptême-mariage-sépulture) issue des dépouillements et numérisations des registres paroissiaux et d’état civil était primordial pour exploiter de nouveau ce corpus. Un datamining des données « mpf » a donc été effectué en suivant deux étapes majeures : –le passage en revue de toutes les informations ou occurrences et leur conversion sous une forme compréhensible ; –la vérification des modèles interprétatifs et, plus précisément, des associations éventuellement détectées. Le fichier tabulé contenant les recensements « restructurés » a servi de point de départ à cette recherche, avec la sélection de huit champs informels comme champs exploratoires. Quant à la table « BMF », elle comportait deux champs pouvant faire la jonction avec « Recensement » : –« id_base » ou l’identifiant alphanumérique de chaque individu recensé et défini par l’équipe de l’ANR ; – « id_événement » ou l’identifiant de chaque événement (baptême, mariage, sépulture, etc.) lié au parcours de vie des individus. Néanmoins, le lien entre les événements et les individus s’est avéré difficile à mettre en évidence du fait de l’absence de correspondance claire entre ces deux corpus . Le postulat d’exploration fut d’agréger les données de recensement (une ligne est égale à un individu par année) par le patronyme (nom et prénom) associé à une limite temporelle de recherche de 50 ans. Le passage en revue des données et des associations détectées s’est avant tout déroulé au sein des recensements.

Données

exo-sr3_trie_idu_menage_idu.csv

exo-sr3_trie_idu.csv

exo-sr3_trie_sans_doublon.csv

Visualisation

Mots-clés	Charleville-Mézières Recensement charleville Archives historiques Python (langage de programmation) Data mining Python (Computer program language) Data mining charleville Charleville-Mézières census historical archives
Auteur :	sylvain rassat
titrefr	Exploration de données historiques (projet "Charleville") par utilisation du langage Python
titreen	Historical data exploration ("Charleville" project) using the Python language
http://nakala.fr/terms#created	2019-03-01
licence	CC-BY-SA-4.0
type	http://purl.org/coar/resource_type/c_5ce6
http://purl.org/dc/terms/creatorfr	sylvain rassat
mots-clésfr	Charleville-Mézières
mots-clésfr	Recensement
mots-clésfr	charleville
mots-clésfr	Archives historiques
mots-clésfr	Python (langage de programmation)
mots-clésfr	Data mining
mots-clésen	Python (Computer program language)
mots-clésen	Data mining
mots-clésen	charleville
mots-clésen	Charleville-Mézières
mots-clésen	census
mots-clésen	historical archives
descriptionfr	Bien que totalement normalisés, restructurés et extraits de l’environnement propriétaire, les différents corpus numériques de l'enquête Charleville (édifiés entre 2007 et 2011) n’étaient pas exploitables en tant que base de données relationnelles. Fin 2018, l’identifiant unique (ou clé étrangère) servant à lier toutes les informations n’avait pas été extrait du travail effectué entre 2007 et 2011. En suivant le modèle de certaines expérimentations probantes en SHS, le choix fut pris de traiter les données « mpf » par un emploi modeste de méthodes de datamining associé au langage de programmation interprété Python pour découvrir cet identifiant unique, des liens cachés et des possibilités d’alignements patronymiques. Trouver un modèle commun d’identifiant unique entre cette base de données « Recensement » et celle allouée aux événements ou « BMS » (pour baptême-mariage-sépulture) issue des dépouillements et numérisations des registres paroissiaux et d’état civil était primordial pour exploiter de nouveau ce corpus. Un datamining des données « mpf » a donc été effectué en suivant deux étapes majeures : –le passage en revue de toutes les informations ou occurrences et leur conversion sous une forme compréhensible ; –la vérification des modèles interprétatifs et, plus précisément, des associations éventuellement détectées. Le fichier tabulé contenant les recensements « restructurés » a servi de point de départ à cette recherche, avec la sélection de huit champs informels comme champs exploratoires. Quant à la table « BMF », elle comportait deux champs pouvant faire la jonction avec « Recensement » : –« id_base » ou l’identifiant alphanumérique de chaque individu recensé et défini par l’équipe de l’ANR ; – « id_événement » ou l’identifiant de chaque événement (baptême, mariage, sépulture, etc.) lié au parcours de vie des individus. Néanmoins, le lien entre les événements et les individus s’est avéré difficile à mettre en évidence du fait de l’absence de correspondance claire entre ces deux corpus . Le postulat d’exploration fut d’agréger les données de recensement (une ligne est égale à un individu par année) par le patronyme (nom et prénom) associé à une limite temporelle de recherche de 50 ans. Le passage en revue des données et des associations détectées s’est avant tout déroulé au sein des recensements.
descriptionen	Although completely standardized, restructured and extracted from the proprietary environment, the various digital corpus of the Charleville survey (built between 2007 and 2011) could not be used as a relational database. At the end of 2018, the unique identifier (or foreign key) used to link all the information had not been extracted from the work carried out between 2007 and 2011. By following the model of certain convincing experiments in SHS, the choice was made to process the “mpf” data by a modest use of datamining methods associated with the interpreted programming language Python to discover this unique identifier, hidden links and possibilities of patronymic alignments. Finding a common model of unique identifier between this "Census" database and that allocated to events or "BMS" (for baptism-marriage-burial) resulting from the analysis and digitization of parish and civil status registers was essential to exploit this corpus again. A datamining of the "mpf" data was therefore carried out by following two major steps: –Reviewing all information or occurrences and converting them into an understandable form; –The verification of interpretative models and, more precisely, of any associations detected. The tabulated file containing the “restructured” censuses served as a starting point for this research, with the selection of eight informal fields as exploratory fields. As for the “BMF” table, it had two fields that could link up with “Census”: - "id_base" or the alphanumeric identifier of each individual identified and defined by the ANR team; - "event_id" or the identifier of each event (baptism, marriage, burial, etc.) linked to the life course of individuals. However, the link between events and individuals proved difficult to identify due to the lack of clear correspondence between these two corpora. The exploration postulate was to aggregate the census data (one row equals one individual per year) by the patronymic (surname and first name) associated with a research time limit of 50 years. The review of the data and the associations detected took place above all within the censuses.
http://purl.org/dc/terms/publisherfr	Centre Roland Mousnier (UMR 8596)
http://purl.org/dc/terms/publisheren	Centre Roland Mousnier (UMR 8596), Paris, France
langues	fr
auteur	sylvain rassat