La Catégorisation des Documents Ecrits en Langue Arabe

MEHIRIS Hichem Abdelmalik; LEKBIR Selma

→
Faculté des mathématiques et de l'informatique
→
Master Informatique
→
Voir le document

dc.contributor.author	MEHIRIS Hichem Abdelmalik
dc.contributor.author	LEKBIR Selma
dc.date.accessioned	2023-09-14T08:41:25Z
dc.date.available	2023-09-14T08:41:25Z
dc.date.issued	2023-06-22
dc.identifier.issn	MM/763
dc.identifier.uri	https://dspace.univ-bba.dz:443/xmlui/handle/123456789/3864
dc.description.abstract	La quantité de données textuelles arabes disponibles sur le World Wide Web a considérablement augmenté au cours des deux dernières décennies, ce qui en fait la quatrième langue la plus couramment utilisée sur le Web. Par conséquent, il existe un besoin croissant d'une classification efficace des textes arabe, en particulier pour le filtrage de contenu Web, la récupération d'informations et la détection des spams par e-mail. Plusieurs algorithmes d'apprentissage automatique ont été implémentés pour classer les documents arabes. Cependant, les résultats obtenus ne sont pas comparables à ceux obtenus dans d'autres langues telles que l'anglais. Ce travail étudie l'impact de techniques de prétraitement et d'extraction de caractéristiques judicieusement choisies sur l'efficacité de différents algorithmes de classification des textes. Toutes les combinaisons possibles de ces techniques sont essayées. Les résultats rapportés démontrent le grand impact des techniques de prétraitement sur l’efficacité de classification des textes Arabes, en particulier la suppression des mots vides avec les techniques d'extraction de caractéristiques The amount of Arabic text data available on the World Wide Web has increased dramatically over the past two decades, making it the fourth most commonly used language on the Web. Therefore, there is a growing need for effective Arabic text classification, especially for web content filtering, information retrieval, and email spam detection. Several machine learning algorithms have been implemented to classify Arabic documents. However, the results obtained are not comparable to those obtained in other languages such as English. This work studies the impact of judiciously chosen preprocessing and feature extraction techniques on the efficiency of different text classification algorithms. All possible combinations of these techniques are tried. The reported results demonstrate the great impact of pre-processing techniques on the efficiency of Arabic text classification, especially stopword removal with feature extraction techniques. فٟ ا ؼٌمذ ٠ ا اٌّض ١١ ، حضا ٠ذث و ١ّت ا بٌ ١ا أث إ ظٌ ١ت ا ؼٌشب ١ت ا خٌّاحت ػ ٍٝ شبىت ا ٌٛ ٠ب ا ؼٌا ١ٌّت بشى وب ١ش، اِّ ٠دؼ ٍٙا سابغ أوثش ا غٌٍاث اسخخذا اًِ ػ ٍٝ ا ٌٛ ٠ب. زٌ هٌ، إ٘ن حاخت خِضا ٠ذة خٌظ ١ٕف فؼاي ظٌٍٕٛص ا ؼٌشب ١ت ، ٚخاطت خٌظف ١ت حِخٜٛ ا ٌٛ ٠ب ، ٚاسخشخاع ا ؼٌّ ٍٛ اِث، ٚاوخشاف ا بٌش ٠ذ الإ ىٌخشٚ ٟٔ ا ؼٌشٛائٟ. ح ح فٕ ١ز ا ؼٌذ ٠ذ خٛاسص ١ِاث ا خٌؼ ا ٢ ٌٟ خٌظ ١ٕف ا ٌٛثائك ا ؼٌشب ١ت. ٚ غِ ر هٌ، فإ ا خٌإئح ا خٌٟ ح ا حٌظٛي ػ ١ٍٙا لا ٠ ىّ مِاس خٔٙا غِ ح هٍ ا خٌٟ ح ا حٌظٛي ػ ١ٍٙا ب غٍاث أخشٜ ثِ الإ دٔ ١ٍض ٠ت. ٠ذسط ز٘ا ا ؼٌ حأث ١ش حم ١إث ا ؼٌّا دٌت ا سٌّبمت ٚحم ١إث اسخخشاج ا ١ٌّضاث ا خٌّخاسة بحى تّ ػ ٍٝ وفاءة خٛاسص ١ِاث حظ ١ٕف إ ضٌ ا خٌّخ فٍت. ح جّ حدشبت خ ١ّغ ا خٌٛ ١ٌفاث ا ىٌّّ تٕ ز٘ ا خٌم ١إث. حظٙش ا خٌإئح ا خٌٟ ح الإبلاؽ ػ ٙإ ا خٌأث ١ش ا ىٌب ١ش خٌم ١إث ا ؼٌّا دٌت ا سٌّبمت ػ ٍٝ وفاءة حظ ١ٕف إ ضٌ ا ؼٌشبٟ، ٚخاطت إصا تٌ ا ىٌ اٍّث ا ٌّٛلٛفت بخم ١إث اسخخشاج ا ١ٌّضاث.	en_US
dc.language.iso	fr	en_US
dc.publisher	UNIVERSITY BBA	en_US
dc.subject	Classification of Arabic Texts, Machine Learning, Data preprocessing techniques, Feature Extraction.	en_US
dc.subject	حظ ١ٕف إ ظٌٛص ا ؼٌشب ١ت ، ا خٌؼ ا ٢ ٌٟ ، حم ١إث ا ؼٌّا دٌت ا سٌّبمت بٌٍ ١ا أث ، اسخخشاج ا ١ٌّضاث	en_US
dc.subject	Classification des Textes Arabes, Apprentissage Automatique, Techniques de Prétraitement des données, Extraction de Caractéristiq	en_US
dc.title	La Catégorisation des Documents Ecrits en Langue Arabe	en_US
dc.type	Thesis	en_US