Résumé:
La quantité de données textuelles arabes disponibles sur le World Wide Web a considérablement augmenté au cours des deux dernières décennies, ce qui en fait la quatrième langue la plus couramment utilisée sur le Web. Par conséquent, il existe un besoin croissant d'une classification efficace des textes arabe, en particulier pour le filtrage de contenu Web, la récupération d'informations et la détection des spams par e-mail. Plusieurs algorithmes d'apprentissage automatique ont été implémentés pour classer les documents arabes. Cependant, les résultats obtenus ne sont pas comparables à ceux obtenus dans d'autres langues telles que l'anglais.
Ce travail étudie l'impact de techniques de prétraitement et d'extraction de caractéristiques judicieusement choisies sur l'efficacité de différents algorithmes de classification des textes. Toutes les combinaisons possibles de ces techniques sont essayées. Les résultats rapportés démontrent le grand impact des techniques de prétraitement sur l’efficacité de classification des textes Arabes, en particulier la suppression des mots vides avec les techniques d'extraction de caractéristiques
The amount of Arabic text data available on the World Wide Web has increased dramatically over the past two decades, making it the fourth most commonly used language on the Web. Therefore, there is a growing need for effective Arabic text classification, especially for web content filtering, information retrieval, and email spam detection. Several machine learning algorithms have been implemented to classify Arabic documents. However, the results obtained are not comparable to those obtained in other languages such as English.
This work studies the impact of judiciously chosen preprocessing and feature extraction techniques on the efficiency of different text classification algorithms. All possible combinations of these techniques are tried. The reported results demonstrate the great impact of pre-processing techniques on the efficiency of Arabic text classification, especially stopword removal with feature extraction techniques.
فٟ ا ؼٌمذ ٠ ا اٌّض ١١ ، حضا ٠ذث و ١ّت ا بٌ ١ا أث إ ظٌ ١ت ا ؼٌشب ١ت ا خٌّاحت ػ ٍٝ شبىت ا ٌٛ ٠ب ا ؼٌا ١ٌّت بشى وب ١ش، اِّ
٠دؼ ٍٙا سابغ أوثش ا غٌٍاث اسخخذا اًِ ػ ٍٝ ا ٌٛ ٠ب. زٌ هٌ، إ٘ن حاخت خِضا ٠ذة خٌظ ١ٕف فؼاي ظٌٍٕٛص ا ؼٌشب ١ت ، ٚخاطت خٌظف ١ت
حِخٜٛ ا ٌٛ ٠ب ، ٚاسخشخاع ا ؼٌّ ٍٛ اِث، ٚاوخشاف ا بٌش ٠ذ الإ ىٌخشٚ ٟٔ ا ؼٌشٛائٟ. ح ح فٕ ١ز ا ؼٌذ ٠ذ خٛاسص ١ِاث ا خٌؼ ا ٢ ٌٟ
خٌظ ١ٕف ا ٌٛثائك ا ؼٌشب ١ت. ٚ غِ ر هٌ، فإ ا خٌإئح ا خٌٟ ح ا حٌظٛي ػ ١ٍٙا لا ٠ ىّ مِاس خٔٙا غِ ح هٍ ا خٌٟ ح ا حٌظٛي ػ ١ٍٙا ب غٍاث
أخشٜ ثِ الإ دٔ ١ٍض ٠ت.
٠ذسط ز٘ا ا ؼٌ حأث ١ش حم ١إث ا ؼٌّا دٌت ا سٌّبمت ٚحم ١إث اسخخشاج ا ١ٌّضاث ا خٌّخاسة بحى تّ ػ ٍٝ وفاءة خٛاسص ١ِاث
حظ ١ٕف إ ضٌ ا خٌّخ فٍت. ح جّ حدشبت خ ١ّغ ا خٌٛ ١ٌفاث ا ىٌّّ تٕ ز٘ ا خٌم ١إث. حظٙش ا خٌإئح ا خٌٟ ح الإبلاؽ ػ ٙإ ا خٌأث ١ش ا ىٌب ١ش
خٌم ١إث ا ؼٌّا دٌت ا سٌّبمت ػ ٍٝ وفاءة حظ ١ٕف إ ضٌ ا ؼٌشبٟ، ٚخاطت إصا تٌ ا ىٌ اٍّث ا ٌّٛلٛفت بخم ١إث اسخخشاج ا ١ٌّضاث.