La Catégorisation des Documents Ecrits en Langue Arabe

dc.contributor.authorMEHIRIS Hichem Abdelmalik
dc.contributor.authorLEKBIR Selma
dc.date.accessioned2023-09-14T08:41:25Z
dc.date.available2023-09-14T08:41:25Z
dc.date.issued2023-06-22
dc.description.abstractLa quantité de données textuelles arabes disponibles sur le World Wide Web a considérablement augmenté au cours des deux dernières décennies, ce qui en fait la quatrième langue la plus couramment utilisée sur le Web. Par conséquent, il existe un besoin croissant d'une classification efficace des textes arabe, en particulier pour le filtrage de contenu Web, la récupération d'informations et la détection des spams par e-mail. Plusieurs algorithmes d'apprentissage automatique ont été implémentés pour classer les documents arabes. Cependant, les résultats obtenus ne sont pas comparables à ceux obtenus dans d'autres langues telles que l'anglais. Ce travail étudie l'impact de techniques de prétraitement et d'extraction de caractéristiques judicieusement choisies sur l'efficacité de différents algorithmes de classification des textes. Toutes les combinaisons possibles de ces techniques sont essayées. Les résultats rapportés démontrent le grand impact des techniques de prétraitement sur l’efficacité de classification des textes Arabes, en particulier la suppression des mots vides avec les techniques d'extraction de caractéristiques The amount of Arabic text data available on the World Wide Web has increased dramatically over the past two decades, making it the fourth most commonly used language on the Web. Therefore, there is a growing need for effective Arabic text classification, especially for web content filtering, information retrieval, and email spam detection. Several machine learning algorithms have been implemented to classify Arabic documents. However, the results obtained are not comparable to those obtained in other languages such as English. This work studies the impact of judiciously chosen preprocessing and feature extraction techniques on the efficiency of different text classification algorithms. All possible combinations of these techniques are tried. The reported results demonstrate the great impact of pre-processing techniques on the efficiency of Arabic text classification, especially stopword removal with feature extraction techniques. فٟ ا ؼٌمذ ٠ ا اٌّض ١١ ، حضا ٠ذث و ١ّت ا بٌ ١ا أث إ ظٌ ١ت ا ؼٌشب ١ت ا خٌّاحت ػ ٍٝ شبىت ا ٌٛ ٠ب ا ؼٌا ١ٌّت بشى وب ١ش، اِّ ٠دؼ ٍٙا سابغ أوثش ا غٌٍاث اسخخذا اًِ ػ ٍٝ ا ٌٛ ٠ب. زٌ هٌ، إ٘ن حاخت خِضا ٠ذة خٌظ ١ٕف فؼاي ظٌٍٕٛص ا ؼٌشب ١ت ، ٚخاطت خٌظف ١ت حِخٜٛ ا ٌٛ ٠ب ، ٚاسخشخاع ا ؼٌّ ٍٛ اِث، ٚاوخشاف ا بٌش ٠ذ الإ ىٌخشٚ ٟٔ ا ؼٌشٛائٟ. ح ح فٕ ١ز ا ؼٌذ ٠ذ خٛاسص ١ِاث ا خٌؼ ا ٢ ٌٟ خٌظ ١ٕف ا ٌٛثائك ا ؼٌشب ١ت. ٚ غِ ر هٌ، فإ ا خٌإئح ا خٌٟ ح ا حٌظٛي ػ ١ٍٙا لا ٠ ىّ مِاس خٔٙا غِ ح هٍ ا خٌٟ ح ا حٌظٛي ػ ١ٍٙا ب غٍاث أخشٜ ثِ الإ دٔ ١ٍض ٠ت. ٠ذسط ز٘ا ا ؼٌ حأث ١ش حم ١إث ا ؼٌّا دٌت ا سٌّبمت ٚحم ١إث اسخخشاج ا ١ٌّضاث ا خٌّخاسة بحى تّ ػ ٍٝ وفاءة خٛاسص ١ِاث حظ ١ٕف إ ضٌ ا خٌّخ فٍت. ح جّ حدشبت خ ١ّغ ا خٌٛ ١ٌفاث ا ىٌّّ تٕ ز٘ ا خٌم ١إث. حظٙش ا خٌإئح ا خٌٟ ح الإبلاؽ ػ ٙإ ا خٌأث ١ش ا ىٌب ١ش خٌم ١إث ا ؼٌّا دٌت ا سٌّبمت ػ ٍٝ وفاءة حظ ١ٕف إ ضٌ ا ؼٌشبٟ، ٚخاطت إصا تٌ ا ىٌ اٍّث ا ٌّٛلٛفت بخم ١إث اسخخشاج ا ١ٌّضاث.en_US
dc.identifier.issnMM/763
dc.identifier.urihttp://10.10.1.6:4000/handle/123456789/3864
dc.language.isofren_US
dc.publisherUNIVERSITY BBAen_US
dc.subjectClassification of Arabic Texts, Machine Learning, Data preprocessing techniques, Feature Extraction.en_US
dc.subjectحظ ١ٕف إ ظٌٛص ا ؼٌشب ١ت ، ا خٌؼ ا ٢ ٌٟ ، حم ١إث ا ؼٌّا دٌت ا سٌّبمت بٌٍ ١ا أث ، اسخخشاج ا ١ٌّضاثen_US
dc.subjectClassification des Textes Arabes, Apprentissage Automatique, Techniques de Prétraitement des données, Extraction de Caractéristiqen_US
dc.titleLa Catégorisation des Documents Ecrits en Langue Arabeen_US
dc.typeThesisen_US

Files

Original bundle

Now showing 1 - 2 of 2
Thumbnail Image
Name:
rapport_final.pdf
Size:
4.1 MB
Format:
Adobe Portable Document Format
Description:
Thumbnail Image
Name:
rapport_final.pdf
Size:
4.1 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: