Les serveurs de fichiers partagés sont bien souvent surchargés de très nombreuses ressources numériques dans beaucoup d’entreprises et organismes. Les fichiers sont souvent conservés sans trop se soucier de la place occupée sur les baies de disques du fait de l’accroissement des capacités des supports de stockage. Le stockage sur le Cloud et ses fonctionnalités de synchronisation avec les référentiels locaux démultiplie les espaces de stockage en ligne et la multiplication des ressources.
Tout cela semble plutôt naturel du fait de la dématérialisation croissante des flux documentaires. Pour autant, il est assez difficile de prendre le temps de trier les contenus s’ils ne sont pas dès le début de leur cycle de vie convenablement répertoriés, stockés dans un système de GED et archivés dans un SAE.
En regardant les nombreux espaces de stockage dédiés aux fichiers, mails et autres ressources numériques, les questions suivantes se posent : Quelles types de données y a-t-il dans tous ces fichiers qui datent de plus de 5 ou 10 ans, voire plus ? Comment repérer toutes les différentes versions d’un même document, même s’ils peuvent avoir des noms de fichiers identiques sur des répertoires différents ou des noms discriminants stockés dans les fins fonds d’arborescences parfois structurées ? Finalement, que faut-il conserver ou détruire et pourquoi ?
Les constats qu’il est facilement possible de dresser devant les millions de fichiers accumulés nous mettent au pied du mur des « vracs numériques ». Ils sont le témoin de la jeune histoire du numérique, l’histoire des serveurs Novell et autres NOS, SAN, CAS et NAS.
Il faudrait des heures, voire des jours et même des mois pour arriver à faire le tri sur ces serveurs. Autant de temps que les entreprises et organismes n’ont pas. Sans compter la difficulté de gérer des arborescences redondantes ou un même fichier se retrouve plusieurs fois. Alors que faire ?
La chasse aux doublons – Les challenges de l’IA
De nombreux fichiers dont le contenu est identique, que nous appellerons « doublons », sont souvent présents dans différents répertoires parfois même dans différents formats (Office, Pdf, …). De nombreuses versions de travail d’un même contenu numérique figurent dans les arborescences de vos serveurs. Comment réaliser la chasse aux doublons ?
Il existe bien quelques outils qui permettent de rechercher les doublons sur des serveurs bureautiques. Mais la technologie utilisée est bien souvent rudimentaire. Elle consiste, dans la majorité des cas, à prendre une empreinte numérique de chaque fichier rencontré puis à déterminer les doublons à l’aide de ces empreintes calculées et comparées. C’est un bon début mais le résultat est bien insuffisant par rapport au défi posé. Une telle technique ne permet pas d’identifier des contenus identiques figurant dans des fichiers de formats différents. Il n’est pas non plus possible de déterminer des fichiers qui traitent d’un même sujet et qui peuvent souvent être des versions proches mais différentes d’un même fichier.
C’est là que les technologies algorithmiques de l’intelligence artificielle peuvent apporter des solutions. Quelles sont ces techniques et pourquoi les utiliser ?
- KNN – Le plus proche voisin.
Plusieurs techniques à l’origine des premiers algorithmes d’intelligence artificielle permettent de mettre en place des mécanismes de classification automatique via des principes d’apprentissage supervisés. Lorsqu’un fichier doit être comparé à des millions d’autres, il est alors proposé à ses paires qui déterminent si ce dernier est un « proche voisin ». Après un vote démocratique, les paires proposent au nouvel entrant de rejoindre son sous corpus le considérant comme un plus proche voisin qu’un autre paire. Cette technique algorithmique bien connu des data scientists sous le nom de KNN (k-nearest neighbors) est parfaitement adaptée à la catégorisation automatique de documents lorsqu’un corpus d’apprentissage a été mis en place. C’est une des bases des techniques de classification qu’il est possible de rencontrer dans les outils de RAD (Reconnaissance Automatique de Documents) souvent couplés aux outils d’OCR (Reconnaissance automatique de caractères) et de LAD (Lecture Automatique de Documents).Sur un vrac numérique, une telle approche est difficile à mettre an œuvre car il faudrait débuter le travail en réalisant des recherches dans les arborescences pour rassembler les fichiers proches de sens avant de pouvoir ensuite proposer pour chaque nouveau fichier un mécanisme de classification presque automatique. Si le nombre de catégories est important, le facteur discriminant diminue alors et les différences d’une catégorie à une autre sont alors moins perceptibles.
- Tf-IDF – La similarité des contenus.
La similarité constatée algorithmiquement sans apprentissage est une technique intéressante pour le traitement du vrac numérique. Elle permet de rassembler des documents similaires pour en former des grappes ou clusters. Avec cette approche innovante, chaque fichier est jaugé par rapport à l’ensemble des autres fichiers. L’analyse du texte est la phase initiale permettant de rationaliser la fouille de texte à l’aide des dictionnaires linguistiques et techniques. Pour chaque mot pertinent, le poids de la similarité augmente proportionnellement au nombre d’occurrences du mot dans le document et en fonction de la fréquence du mot dans le corpus global constitué de millions de fichiers.
Avec ces approches algorithmiques, l’usage de l’intelligence artificielle permet d’identifier les véritables doublons binaires mais surtout les doublons invisibles à l’œil humain. L’IA permet d’identifier les concepts contenus dans les documents, de regrouper les documents en grappes sur la base des concepts similaires, puis de présenter les grappes ou clusters tout en apportant une vision des relations entre les différentes grappes dans une approche de relation hiérarchique. L’IA permet alors de proposer un résultat d’analyse à ses utilisateurs, tout en leur permettant de réaliser des choix de ce qui doit être conservé et archivé.
Vous souhaitez en savoir plus? Contactez-nous
Christian DUBOURG
Directeur Lab innovation et conformité Spark Archives / KleeGroup