Étude de faisabilité de mise en place d'une indexation semi-automatique avec un thésaurus spécialisé en archéologie
Abstract
Le réseau de bibliothèques et de laboratoires FRANTIQ a entre autres, comme but de fédérer les documents d'archéologie et de sciences de l'Antiquité (papier ou électronique) dans un catalogue commun indexé afin de les retrouver plus facilement. Chaque document fait l'objet d'une notice et d'une indexation à l'aide du thésaurus spécialisé en archéologie PACTOLS. Or le nombre de documents ne cesse d'accroître et l'indexation manuelle est une tâche très coûteuse en temps/homme. De plus, en archéologie, les informations sont cumulatives, c'est-à-dire que les informations ne deviennent jamais obsolètes mais s'ajoutent au fil du temps et les documents sont des ressources importantes pour le travail des chercheurs et des étudiants. En 2009, pour alléger le travail d'indexation des documentalistes et bibliothécaires et étendre la couverture du catalogue, les premiers essais d'indexation semi-automatique à l'aide du thésaurus PACTOLS ont été réalisés par l'informaticien du réseau FRANTIQ aidé de stagiaires. Le résultat n'étant pas très concluant, notamment à cause d'ambiguïtés dans les mots-clés proposés par l'algorithme, et par manque de temps et de moyens pour améliorer les résultats, ce projet a été temporairement abandonné. Ce mémoire a pour but de reprendre ce projet et d'analyser les méthodes modernes et anciennes de l'indexation automatique et semi-automatique afin d'améliorer les résultats et son taux d'acceptation par les indexeurs en poste. Deux systèmes ont étés sélectionnés afin d'en comparer les résultats : un système à base de règles crée avec python et natural language toolkit (NLTK), et un système d'apprentissage basé sur KEA++.
Fichier principal
MAZUR_indexation_semi_automatique_avec_thesaurus_specialise_en_archeologie_frantiq.pdf (1.29 Mo)
Télécharger le fichier
Loading...