Résumé:
Dans un contexte où l’organisation efficace des documents est cruciale en raison de la saturation informationnelle, la langue arabe présente des défis spécifiques pour la catégorisation automatique en raison de sa complexité linguistique et culturelle. L’augmentation rapide des données textuelles en arabe sur internet et sur diverses plateformes rend cette tâche indispensable mais difficile, traditionnellement réalisée manuellement et sujette aux erreurs.
Ce mémoire vise à développer une application en Python pour la catégorisation automatique multi-thématique des documents en arabe. En combinant le traitement automatique de la langue arabe (Arabic NLP) et la classification multi-label de texte, l’application cherche à surmonter les défis linguistiques et culturels propres à l’arabe, offrant ainsi un outil robuste, précis et adaptable pour améliorer la gestion et l’organisation des données textuelles en arabe.