Etude Comparative Des Racinisateurs Arabes.

Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

university of bordj bou arreridj

Abstract

Arabic language has a complex morphological structure, which presents a unique challenge in natural language processing (NLP). The derivational system of Arabic is based on roots, which are frequently modified to create new words, employing an extensive set of Arabic morphemes affixes such as prefixes, suffixes and more. Stemming is a fundamental task in text processing, plays a crucial role in information retrieval (IR) and text analysis, it reduces words to their basic or root form, facilitating text normalization for easier processing. However, no stemming algorithm for this language is perfect. In this work, we are going to focus on comparing and evaluating the performance of several Arabic stemmers namely, ISRI, Tashaphyne and Snowball. We intend to assess their performance on two distinct datasets using advanced techniques such as neural networks and machine learning classifiers. Additionally, we aim to determine which combination of stemmer and classifier yields the best results, providing invaluable insights for Arabic text processing applications

Description

En résumé, ce mémoire met en évidence l'importance cruciale de la classification automatique des textes arabes face à l'explosion des données textuelles. La langue arabe, avec son riche patrimoine historique et culturel, exige des approches sophistiquées pour organiser et exploiter efficacement les informations provenant de sources variées, des manuscrits anciens aux publications numériques contemporaines. Notre étude a détaillé les étapes essentielles de la classification des textes, en commençant par le prétraitement des données. Cette phase est indispensable pour transformer des informations non structurées en données prêtes à l'analyse. Nous avons également examiné les applications pratiques de la classification automatique dans divers domaines, démontrant ainsi son utilité pour la recherche académique, la gestion de l'information et la veille médiatique. Les défis spécifiques à la langue arabe, notamment sa complexité morphologique et sa richesse lexicale, ont été analysés, soulignant les obstacles à surmonter pour atteindre une classification efficace. Le chapitre consacré à la racinisation a permis d'explorer en profondeur les techniques de stemming, essentielles pour le traitement des textes arabes. Nous avons étudié les différentes méthodes de stemming, en mettant l'accent sur leurs applications spécifiques à la langue arabe, ce qui est crucial pour améliorer la précision de la classification. La méthodologie de notre recherche, de la collecte des données à l'analyse des résultats, a été soigneusement structurée pour assurer une base solide et rigoureuse. Les sources de données variées et les processus rigoureux de collecte garantissent la fiabilité des analyses. L'importance du prétraitement des données et du choix des algorithmes a été mise en lumière, montrant leur impact significatif sur les performances globales de la classification. Les résultats obtenus démontrent que la combinaison de techniques avancées de prétraitement, de méthodes de stemming adaptées et d'algorithmes performants peut considérablement améliorer l'organisation et la recherche de textes en langue arabe. Les outils et méthodes utilisés ont été évalués de manière rigoureuse, offrant des insights précieux pour l'amélioration continue de ces techniques. Ce mémoire apporte une contribution significative au domaine de la classification automatique des textes arabes. En relevant les défis spécifiques posés par la langue arabe, nous avons développé et testé des approches novatrices qui facilitent l'accès à l'information et la découverte de connaissances dans ce riche corpus textuel. Notre travail se distingue par son analyse approfondie et ses contributions originales, ouvrant de nouvelles perspectives pour la préservation, l'organisation et la diffusion de la littérature arabe. Nous espérons que cette recherche servira de référence pour les futurs travaux, encourageant l'innovation et l'amélioration continue des méthodes de classification des textes en langue arabe

Keywords

: Natural language processing, stemming, Classification algorithm, Approaches, Artificial intelligence.

Citation

Endorsement

Review

Supplemented By

Referenced By