Etude Comparative Des Racinisateurs Arabes.
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
university of bordj bou arreridj
Abstract
Arabic language has a complex morphological structure, which presents a unique challenge in
natural language processing (NLP). The derivational system of Arabic is based on roots, which
are frequently modified to create new words, employing an extensive set of Arabic morphemes
affixes such as prefixes, suffixes and more. Stemming is a fundamental task in text processing,
plays a crucial role in information retrieval (IR) and text analysis, it reduces words to their basic
or root form, facilitating text normalization for easier processing. However, no stemming
algorithm for this language is perfect.
In this work, we are going to focus on comparing and evaluating the performance of several
Arabic stemmers namely, ISRI, Tashaphyne and Snowball. We intend to assess their
performance on two distinct datasets using advanced techniques such as neural networks and
machine learning classifiers. Additionally, we aim to determine which combination of stemmer
and classifier yields the best results, providing invaluable insights for Arabic text processing
applications
Description
En résumé, ce mémoire met en évidence l'importance cruciale de la classification automatique
des textes arabes face à l'explosion des données textuelles. La langue arabe, avec son riche
patrimoine historique et culturel, exige des approches sophistiquées pour organiser et exploiter
efficacement les informations provenant de sources variées, des manuscrits anciens aux
publications numériques contemporaines.
Notre étude a détaillé les étapes essentielles de la classification des textes, en commençant par
le prétraitement des données. Cette phase est indispensable pour transformer des informations
non structurées en données prêtes à l'analyse. Nous avons également examiné les applications
pratiques de la classification automatique dans divers domaines, démontrant ainsi son utilité
pour la recherche académique, la gestion de l'information et la veille médiatique. Les défis
spécifiques à la langue arabe, notamment sa complexité morphologique et sa richesse lexicale,
ont été analysés, soulignant les obstacles à surmonter pour atteindre une classification efficace.
Le chapitre consacré à la racinisation a permis d'explorer en profondeur les techniques de
stemming, essentielles pour le traitement des textes arabes. Nous avons étudié les différentes
méthodes de stemming, en mettant l'accent sur leurs applications spécifiques à la langue arabe,
ce qui est crucial pour améliorer la précision de la classification.
La méthodologie de notre recherche, de la collecte des données à l'analyse des résultats, a été
soigneusement structurée pour assurer une base solide et rigoureuse. Les sources de données
variées et les processus rigoureux de collecte garantissent la fiabilité des analyses. L'importance
du prétraitement des données et du choix des algorithmes a été mise en lumière, montrant leur
impact significatif sur les performances globales de la classification.
Les résultats obtenus démontrent que la combinaison de techniques avancées de prétraitement,
de méthodes de stemming adaptées et d'algorithmes performants peut considérablement
améliorer l'organisation et la recherche de textes en langue arabe. Les outils et méthodes utilisés
ont été évalués de manière rigoureuse, offrant des insights précieux pour l'amélioration continue
de ces techniques.
Ce mémoire apporte une contribution significative au domaine de la classification automatique
des textes arabes. En relevant les défis spécifiques posés par la langue arabe, nous avons
développé et testé des approches novatrices qui facilitent l'accès à l'information et la découverte
de connaissances dans ce riche corpus textuel. Notre travail se distingue par son analyse
approfondie et ses contributions originales, ouvrant de nouvelles perspectives pour la
préservation, l'organisation et la diffusion de la littérature arabe. Nous espérons que cette
recherche servira de référence pour les futurs travaux, encourageant l'innovation et
l'amélioration continue des méthodes de classification des textes en langue arabe
Keywords
: Natural language processing, stemming, Classification algorithm, Approaches, Artificial intelligence.