Exploration de données historiques (projet "Charleville") par utilisation du langage Python
DOI / Handle
Bien que totalement normalisés, restructurés et extraits de l’environnement propriétaire, les différents corpus numériques de l'enquête Charleville (édifiés entre 2007 et 2011) n’étaient pas exploitables en tant que base de données relationnelles. Fin 2018, l’identifiant unique (ou clé étrangère) servant à lier toutes les informations n’avait pas été extrait du travail effectué entre 2007 et 2011. En suivant le modèle de certaines expérimentations probantes en SHS, le choix fut pris de traiter les données « mpf » par un emploi modeste de méthodes de datamining associé au langage de programmation interprété Python pour découvrir cet identifiant unique, des liens cachés et des possibilités d’alignements patronymiques. Trouver un modèle commun d’identifiant unique entre cette base de données « Recensement » et celle allouée aux événements ou « BMS » (pour baptême-mariage-sépulture) issue des dépouillements et numérisations des registres paroissiaux et d’état civil était primordial pour exploiter de nouveau ce corpus. Un datamining des données « mpf » a donc été effectué en suivant deux étapes majeures : –le passage en revue de toutes les informations ou occurrences et leur conversion sous une forme compréhensible ; –la vérification des modèles interprétatifs et, plus précisément, des associations éventuellement détectées. Le fichier tabulé contenant les recensements « restructurés » a servi de point de départ à cette recherche, avec la sélection de huit champs informels comme champs exploratoires. Quant à la table « BMF », elle comportait deux champs pouvant faire la jonction avec « Recensement » : –« id_base » ou l’identifiant alphanumérique de chaque individu recensé et défini par l’équipe de l’ANR ; – « id_événement » ou l’identifiant de chaque événement (baptême, mariage, sépulture, etc.) lié au parcours de vie des individus. Néanmoins, le lien entre les événements et les individus s’est avéré difficile à mettre en évidence du fait de l’absence de correspondance claire entre ces deux corpus . Le postulat d’exploration fut d’agréger les données de recensement (une ligne est égale à un individu par année) par le patronyme (nom et prénom) associé à une limite temporelle de recherche de 50 ans. Le passage en revue des données et des associations détectées s’est avant tout déroulé au sein des recensements.
Mots-clés | Charleville-Mézières Recensement charleville Archives historiques Python (langage de programmation) Data mining Python (Computer program language) Data mining charleville Charleville-Mézières census historical archives |
---|---|
Auteur : | sylvain rassat |
titrefr | Exploration de données historiques (projet "Charleville") par utilisation du langage Python |
titreen | Historical data exploration ("Charleville" project) using the Python language |
http://nakala.fr/terms#created | 2019-03-01 |
licence | CC-BY-SA-4.0 |
type | http://purl.org/coar/resource_type/c_5ce6 |
http://purl.org/dc/terms/creatorfr | sylvain rassat |
mots-clésfr | Charleville-Mézières |
mots-clésfr | Recensement |
mots-clésfr | charleville |
mots-clésfr | Archives historiques |
mots-clésfr | Python (langage de programmation) |
mots-clésfr | Data mining |
mots-clésen | Python (Computer program language) |
mots-clésen | Data mining |
mots-clésen | charleville |
mots-clésen | Charleville-Mézières |
mots-clésen | census |
mots-clésen | historical archives |
descriptionfr | Bien que totalement normalisés, restructurés et extraits de l’environnement propriétaire, les différents corpus numériques de l'enquête Charleville (édifiés entre 2007 et 2011) n’étaient pas exploitables en tant que base de données relationnelles. Fin 2018, l’identifiant unique (ou clé étrangère) servant à lier toutes les informations n’avait pas été extrait du travail effectué entre 2007 et 2011. En suivant le modèle de certaines expérimentations probantes en SHS, le choix fut pris de traiter les données « mpf » par un emploi modeste de méthodes de datamining associé au langage de programmation interprété Python pour découvrir cet identifiant unique, des liens cachés et des possibilités d’alignements patronymiques. Trouver un modèle commun d’identifiant unique entre cette base de données « Recensement » et celle allouée aux événements ou « BMS » (pour baptême-mariage-sépulture) issue des dépouillements et numérisations des registres paroissiaux et d’état civil était primordial pour exploiter de nouveau ce corpus. Un datamining des données « mpf » a donc été effectué en suivant deux étapes majeures : –le passage en revue de toutes les informations ou occurrences et leur conversion sous une forme compréhensible ; –la vérification des modèles interprétatifs et, plus précisément, des associations éventuellement détectées. Le fichier tabulé contenant les recensements « restructurés » a servi de point de départ à cette recherche, avec la sélection de huit champs informels comme champs exploratoires. Quant à la table « BMF », elle comportait deux champs pouvant faire la jonction avec « Recensement » : –« id_base » ou l’identifiant alphanumérique de chaque individu recensé et défini par l’équipe de l’ANR ; – « id_événement » ou l’identifiant de chaque événement (baptême, mariage, sépulture, etc.) lié au parcours de vie des individus. Néanmoins, le lien entre les événements et les individus s’est avéré difficile à mettre en évidence du fait de l’absence de correspondance claire entre ces deux corpus . Le postulat d’exploration fut d’agréger les données de recensement (une ligne est égale à un individu par année) par le patronyme (nom et prénom) associé à une limite temporelle de recherche de 50 ans. Le passage en revue des données et des associations détectées s’est avant tout déroulé au sein des recensements. |
descriptionen | Although completely standardized, restructured and extracted from the proprietary environment, the various digital corpus of the Charleville survey (built between 2007 and 2011) could not be used as a relational database. At the end of 2018, the unique identifier (or foreign key) used to link all the information had not been extracted from the work carried out between 2007 and 2011. By following the model of certain convincing experiments in SHS, the choice was made to process the “mpf” data by a modest use of datamining methods associated with the interpreted programming language Python to discover this unique identifier, hidden links and possibilities of patronymic alignments. Finding a common model of unique identifier between this "Census" database and that allocated to events or "BMS" (for baptism-marriage-burial) resulting from the analysis and digitization of parish and civil status registers was essential to exploit this corpus again. A datamining of the "mpf" data was therefore carried out by following two major steps: –Reviewing all information or occurrences and converting them into an understandable form; –The verification of interpretative models and, more precisely, of any associations detected. The tabulated file containing the “restructured” censuses served as a starting point for this research, with the selection of eight informal fields as exploratory fields. As for the “BMF” table, it had two fields that could link up with “Census”: - "id_base" or the alphanumeric identifier of each individual identified and defined by the ANR team; - "event_id" or the identifier of each event (baptism, marriage, burial, etc.) linked to the life course of individuals. However, the link between events and individuals proved difficult to identify due to the lack of clear correspondence between these two corpora. The exploration postulate was to aggregate the census data (one row equals one individual per year) by the patronymic (surname and first name) associated with a research time limit of 50 years. The review of the data and the associations detected took place above all within the censuses. |
http://purl.org/dc/terms/publisherfr | Centre Roland Mousnier (UMR 8596) |
http://purl.org/dc/terms/publisheren | Centre Roland Mousnier (UMR 8596), Paris, France |
langues | fr |
auteur | sylvain rassat |