version française rss feed
s'authentifier
Fiche détaillée
Université Paris 10 - Master 2 Documents électroniques et flux d'informations (DEFI), Maison d'archéologie et d'ethnologie René Ginouvès (MAE) 21, allée de l'Université, F-92023, Nanterre Cedex
Liste des fichiers attachés à ce document : 
PDF
MAZUR_indexation_semi_automatique_avec_thesaurus_specialise_en_archeologie_frantiq.pdf(1.3 MB)
mem_00737359, version 1
Étude de faisabilité de mise en place d'une indexation semi-automatique avec un thésaurus spécialisé en archéologie
Anita Mazur1
(24/09/2012)

Le réseau de bibliothèques et de laboratoires FRANTIQ a entre autres, comme but de fédérer les documents d'archéologie et de sciences de l'Antiquité (papier ou électronique) dans un catalogue commun indexé afin de les retrouver plus facilement. Chaque document fait l'objet d'une notice et d'une indexation à l'aide du thésaurus spécialisé en archéologie PACTOLS. Or le nombre de documents ne cesse d'accroître et l'indexation manuelle est une tâche très coûteuse en temps/homme. De plus, en archéologie, les informations sont cumulatives, c'est-à-dire que les informations ne deviennent jamais obsolètes mais s'ajoutent au fil du temps et les documents sont des ressources importantes pour le travail des chercheurs et des étudiants. En 2009, pour alléger le travail d'indexation des documentalistes et bibliothécaires et étendre la couverture du catalogue, les premiers essais d'indexation semi-automatique à l'aide du thésaurus PACTOLS ont été réalisés par l'informaticien du réseau FRANTIQ aidé de stagiaires. Le résultat n'étant pas très concluant, notamment à cause d'ambiguïtés dans les mots-clés proposés par l'algorithme, et par manque de temps et de moyens pour améliorer les résultats, ce projet a été temporairement abandonné. Ce mémoire a pour but de reprendre ce projet et d'analyser les méthodes modernes et anciennes de l'indexation automatique et semi-automatique afin d'améliorer les résultats et son taux d'acceptation par les indexeurs en poste. Deux systèmes ont étés sélectionnés afin d'en comparer les résultats : un système à base de règles crée avec python et natural language toolkit (NLTK), et un système d'apprentissage basé sur KEA++.
1 :  UMSMRG - Unite mixte de service de la maison Rene Ginouves
Sciences de l'Homme et Société/Sciences de l'information et de la communication/Ingénierie des systèmes d'information
langage naturel – indexation semi-automatique – TAL (traitement automatique du langage) – thésaurus – articles scientifiques – archéologie

tous les articles de la base du CCSd...