?. Nf and . Iso, Information et documentation Références bibliographiques : documents électroniques, documents complets et parties de documents, pp.690-692, 1998.

S. Classement-est-thématique, Les références sont répertoriées par ordre alphabétique d'auteurs à l'intérieur de chaque thème

A. Dématérialisation, La dématérialisation : guide pratique, p.96, 2008.

F. Frédéric, La mise en oeuvre des programmes de numérisation dans la fonction publique : étude de cas du centre de documentation du Ministère des sports, 2003.

B. Patrick, Groupe de travail Minerva numéro 6 Guide des bonnes pratiques, version1.3 : Identification des bonnes pratiques et des centres de compétence [en ligne]. 3 mars, MINERVA (Ministerial Network for Valorising Activities in Digitisation) Dématérialisation : le nouvel espace. Archimag, pp.191-212, 2006.

W. Isabelle and A. Martine, La numérisation des textes et des images : techniques et réalisations

C. Jacques, La gestion électronique de documents

. France, 123 p. Collection Que sais-je, 1996.

D. Gérard, Technologie de la GED : l'édition électronique, 1994.

M. Sylvie, G. La, and . Nuttin-guillaume, Articles "Métier" [en ligne]. Paris, CERPEG, 12 mars 209, Site de Business Process Management Services, pp.205-242, 2007.

P. Jean-yves and . Simon, La gestion électronique documentaire

R. Bodosahondra, Transformation d'une chaîne documentaire papier en chaîne numérique : le cas d'un service Questions / Réponses, 2008.

R. Olivier, Format : l'aventure du PDF. Archimag, mars, pp.23-34, 2003.

T. Consultants and . Lenart, Michèle (étude réalisée par) La gestion documentaire : évolutions fonctionnelles et description de dix logiciels, p.185, 2004.

T. Mélanie, Mise en ouvre d'une GEIDE et intérêt pour une activité de veille

V. Jean-philippe, Gestion de documents pour la fonction juridique : cahier des charges pour un projet de GED Veolia Environnement, 2008.

. Indexation-Électronique, . Marie, and . Sylvie, Métadonnées et valorisation de l'information

. Bruno, indexation à l'heure du numérique. Documentaliste ? Sciences de l'information, pp.340-342, 2004.

O. Hélène, Technologies de reconnaissance optique : des progrès notables à ne pas perdre de vue, pp.40-44, 2006.

A. Z. Archivage-Électronique, Spécifications relatives à la conception et à l'exploitation de systèmes informatiques en vue d'assurer la conservation et l'intégrité des documents stockés dans ces systèmes ARCHIMAG. L'archivage électronique : guide pratique, pp.42-55, 2007.

R. Jean-marc, C. Chabin-marie-anne, and . Éric, Dématérialisation et archivage électronique : mise en oeuvre de l'ILM, information lifecycle management. Paris, "01 informatique, Dunod, 2006.

L. Françoise and . Vaissaire-clotilde, Les dossiers documentaires : dossier outil, dossier produit, dossier électronique, 2005.

R. Informatique-documentaire and . Alexis, Aide-mémoire d'informatique documentaire, 2007.

B. Michèle, Le panorama de presse: aspects juridiques, 2006.

B. Michèle, Le panorama de presse Bulletin des Bibliothèques de France [en ligne], pp.125-125, 2007.

B. Michèle, Droit et traitement de la presse dans les centres de documentation

A. Collectif, . Abf, . Adbdp, . Adbgv, . Adbs et al., Le projet de loi sur le droit d'auteur et les droits voisins dans la société de l'information : attention, danger !. Documentaliste-Sciences de l'information, pp.1-62, 2005.

P. Aproged and L. Blanc, /Voir-details/Publications/31-Livre-Blanc-Devoir-de- conseil-des-professionnels-du-numerique.html> GESTE. Guide pratique pour les utilisateurs de presse : panoramas de presse, résumés et archivages d'articles de presse en intranet <http://www.geste.fr/pdf/Guide-pratique-utilisateurs.pdf> GESTE. La charte d'édition électronique, Site du GESTE Site du GESTE, pp.3-220, 2003.

S. Claire and S. National-de-l-'edition, <http://bbf.enssib.fr, Site du Syndicat National de l'Edition [en ligne]. Paris [consulté le 2 octobre, pp.51-55, 2009.

S. Disque-dur, D. Cd, and D. Worm, Bande magnétique ? Interprétation Reconnaissance Automatique de Documents (RAD) ? Lecture Automatique de Documents (LAD) ? OCR ? (avec ou sans relecture humaine) / ICR ? Saisie manuelle ?

. Leur-contenuaproged, L. Publications, and . Blanc, Guide de bonne consuite, page 17. <http://www.aproged.org/index.php/Telecharger/Publications/7-Livre-Blanc-Gestion-des-documents- numeriques-et-de-leur-contenu.html?chk=2d6c0c9f15ddb54085a5fe40093059a3&no_html=1> 14 Estimez-vous avoir suffisamment d'informations (notamment d'origine publique) ou d'aide pour mener le projet ? 15 L'appréhension du projet par les utilisateurs finaux a-t-elle été facilitée ? (communications, plan de formation, etc), est-elle suffisante ?, 2008.

. Photo-illustrant-la-chemise-papier-intitulé, Jus de fruits" dans laquelle sont rangées diverses sous-chemises plastique transparentes

. De, OCR puisse s'opérer de façon correcte, tous les documents présentant des articles non alignés ? autrement dit les photocopies ayant été faites avec un manque de soins -ont été traités manuellement afin de réaligner les textes, Ce travail a été assez lourd puisque aucune option de correction automatique des désalignements n'est disponible dans le logiciel Canon MP Navigator

. Enfin, beaucoup de documents ont également été recadrés lors de la numérisation Ce traitement était lui facultatif et n'a été fait, dans la majorité des cas, qu'avec un simple souci d'esthétisme. Ce recadrage n'ayant en effet aucun réel impact sur la performance de l'OCR

. En-précisant-qu, aucune option de recadrage précis n'est disponible non plus dans MP Navigator. Celui-ci a donc du être effectué manuellement avec Adobe Photoshop

L. Ici, le logiciel n'arrive pas à reconnaître l'annotation manuscrite « CB News

. Dans, plusieurs options de traitement de l'image sont disponibles, dont la découpe et le recadrage Ici cette option nous sert à enlever la partie inutile qui contient les références manuscrites (qui seront re-saisies via l'indexation), et surtout à supprimer toute la partie vierge de la page et qui alourdirait inutilement le fichier pdf final de sortie

C. 'est-une-photocopie-en-noir-et-blanc-d-'un-article-de and C. News, Mais cette fois l'article comporte des images. Les tests pour ce document se sont révélés très instructifs

. En-effet,-bien-que-les-caractères-sur-cette, photocopie soient plus gros que ceux du document précédent, on a pu cette fois constater que la performance de l'OCR était liée à la résolution de numérisation du document. Ainsi, certaines erreurs de reconnaissance se produisant avec une résolution de 200 dpi ne se produisent pas à 400 dpi. Et c'est seulement à 400 dpi que l'OCR a obtenu 100% de reconnaissance pour ce document. L'explication tient à la qualité d'impression de cette photocopie

. Pour-ce-qui-est-du-poids, 170 ko pour le 200 dpi, 276 ko pour le 300 dpi, 362 ko pour le 400 dpi. Projections avec 80000 documents : 13 Go à 200 dpi

C. 'est-une-photocopie-en-noir-et-blanc-d-'un-article-du-figaro-Économie, Elle a été sélectionnée car elle présente un très mauvais contraste ainsi qu'une médiocre qualité d'impression. Trois tests ont été menés

. De-plus, aux trois résolutions se produisent de très nombreuses erreurs de reconnaissance, comme pour l'exemple ci-dessus. 120 mots douteux à 200 dpi, plus de 300 à 400 dpi. Cela provient de la mauvaise impression (caractères mal imprimés et pas assez « marqués »), plus que du mauvais contraste avec le fond de page. On constate donc avec cette exemple qu'élever la résolution de numérisation ne solutionne pas toujours les problèmes de reconnaissance, et que la qualité de la photocopie reste primordiale

C. 'est-une-photocopie-en-noir-et-blanc-d-'un-article-de-libération, Elle présente des caractéristiques très proches de celles du document précédent : mauvais contraste et mauvaise qualité d'impression ? légèrement pire que celle du document 5 précédent Trois tests ont été menés

L. Qu, il se compose de deux parties ? suite à la photocopie de deux morceaux de papiers ayant été découpés aux ciseaux. La partie supérieure est inclinée alors que celle inférieure est bien alignée. Il faudrait donc isoler ces deux parties avec un découpage numérique, aligner la partie supérieure, puis refusionner ces deux parties en un fichier unique. On voit donc que cela peut être long et complexe

L. Particularité-de-ce-document-est and . Qu, il contient plusieurs articles sélectionnés sur cette même page, et que l'un d'eux ? dans la partie inférieure droite ? est particulièrement mal reproduit, à tel point qu'il est complètement illisible. Excepté cette partie mal reproduite ? dont je ne m'explique pas l'origine ? ?, le reste de la photocopie bénéficie d

. Le-contraste-est-faible, tout comme pour le document précédent, mais il est cette fois hétérogène, et présente beaucoup de « bruit ». En conséquence, l'OCR est un échec total

C. 'est-une-photocopie-couleur-d-'un-article-découpé-dans-le-figaro-magazine, Le choix de numériser en couleur s'explique par un souci de bien conserver les informations et les messages véhiculés par l'image illustrant l'article -des bouteilles de sirop. C'est typiquement l'exemple d'un article où la photo est autant informative, sinon plus

C. 'est-une-photocopie-noir-et-blanc-d-'un-article-du-monde, Le contraste pour cette photocopie est satisfaisant (seulement un très léger « bruit de fond

C. 'est-une-photocopie-noir-et-blanc-d, un article dont la source est inconnue ? De plus le titre est assez peu évocateur. A la lecture de l'article on comprend que c'est un article à propos d'une pub pour la société Buffalo