Dépôt Institutionnel de l'Université BBA

La Catégorisation des Documents Ecrits en Langue Arabe

Afficher la notice abrégée

dc.contributor.author MEHIRIS Hichem Abdelmalik
dc.contributor.author LEKBIR Selma
dc.date.accessioned 2023-09-14T08:41:25Z
dc.date.available 2023-09-14T08:41:25Z
dc.date.issued 2023-06-22
dc.identifier.issn MM/763
dc.identifier.uri https://dspace.univ-bba.dz:443/xmlui/handle/123456789/3864
dc.description.abstract La quantité de données textuelles arabes disponibles sur le World Wide Web a considérablement augmenté au cours des deux dernières décennies, ce qui en fait la quatrième langue la plus couramment utilisée sur le Web. Par conséquent, il existe un besoin croissant d'une classification efficace des textes arabe, en particulier pour le filtrage de contenu Web, la récupération d'informations et la détection des spams par e-mail. Plusieurs algorithmes d'apprentissage automatique ont été implémentés pour classer les documents arabes. Cependant, les résultats obtenus ne sont pas comparables à ceux obtenus dans d'autres langues telles que l'anglais. Ce travail étudie l'impact de techniques de prétraitement et d'extraction de caractéristiques judicieusement choisies sur l'efficacité de différents algorithmes de classification des textes. Toutes les combinaisons possibles de ces techniques sont essayées. Les résultats rapportés démontrent le grand impact des techniques de prétraitement sur l’efficacité de classification des textes Arabes, en particulier la suppression des mots vides avec les techniques d'extraction de caractéristiques The amount of Arabic text data available on the World Wide Web has increased dramatically over the past two decades, making it the fourth most commonly used language on the Web. Therefore, there is a growing need for effective Arabic text classification, especially for web content filtering, information retrieval, and email spam detection. Several machine learning algorithms have been implemented to classify Arabic documents. However, the results obtained are not comparable to those obtained in other languages such as English. This work studies the impact of judiciously chosen preprocessing and feature extraction techniques on the efficiency of different text classification algorithms. All possible combinations of these techniques are tried. The reported results demonstrate the great impact of pre-processing techniques on the efficiency of Arabic text classification, especially stopword removal with feature extraction techniques. فٟ ا ؼٌمذ ٠ ا اٌّض ١١ ، حضا ٠ذث و ١ّت ا بٌ ١ا أث إ ظٌ ١ت ا ؼٌشب ١ت ا خٌّاحت ػ ٍٝ شبىت ا ٌٛ ٠ب ا ؼٌا ١ٌّت بشى وب ١ش، اِّ ٠دؼ ٍٙا سابغ أوثش ا غٌٍاث اسخخذا اًِ ػ ٍٝ ا ٌٛ ٠ب. زٌ هٌ، إ٘ن حاخت خِضا ٠ذة خٌظ ١ٕف فؼاي ظٌٍٕٛص ا ؼٌشب ١ت ، ٚخاطت خٌظف ١ت حِخٜٛ ا ٌٛ ٠ب ، ٚاسخشخاع ا ؼٌّ ٍٛ اِث، ٚاوخشاف ا بٌش ٠ذ الإ ىٌخشٚ ٟٔ ا ؼٌشٛائٟ. ح ح فٕ ١ز ا ؼٌذ ٠ذ خٛاسص ١ِاث ا خٌؼ ا ٢ ٌٟ خٌظ ١ٕف ا ٌٛثائك ا ؼٌشب ١ت. ٚ غِ ر هٌ، فإ ا خٌإئح ا خٌٟ ح ا حٌظٛي ػ ١ٍٙا لا ٠ ىّ مِاس خٔٙا غِ ح هٍ ا خٌٟ ح ا حٌظٛي ػ ١ٍٙا ب غٍاث أخشٜ ثِ الإ دٔ ١ٍض ٠ت. ٠ذسط ز٘ا ا ؼٌ حأث ١ش حم ١إث ا ؼٌّا دٌت ا سٌّبمت ٚحم ١إث اسخخشاج ا ١ٌّضاث ا خٌّخاسة بحى تّ ػ ٍٝ وفاءة خٛاسص ١ِاث حظ ١ٕف إ ضٌ ا خٌّخ فٍت. ح جّ حدشبت خ ١ّغ ا خٌٛ ١ٌفاث ا ىٌّّ تٕ ز٘ ا خٌم ١إث. حظٙش ا خٌإئح ا خٌٟ ح الإبلاؽ ػ ٙإ ا خٌأث ١ش ا ىٌب ١ش خٌم ١إث ا ؼٌّا دٌت ا سٌّبمت ػ ٍٝ وفاءة حظ ١ٕف إ ضٌ ا ؼٌشبٟ، ٚخاطت إصا تٌ ا ىٌ اٍّث ا ٌّٛلٛفت بخم ١إث اسخخشاج ا ١ٌّضاث. en_US
dc.language.iso fr en_US
dc.publisher UNIVERSITY BBA en_US
dc.subject Classification of Arabic Texts, Machine Learning, Data preprocessing techniques, Feature Extraction. en_US
dc.subject حظ ١ٕف إ ظٌٛص ا ؼٌشب ١ت ، ا خٌؼ ا ٢ ٌٟ ، حم ١إث ا ؼٌّا دٌت ا سٌّبمت بٌٍ ١ا أث ، اسخخشاج ا ١ٌّضاث en_US
dc.subject Classification des Textes Arabes, Apprentissage Automatique, Techniques de Prétraitement des données, Extraction de Caractéristiq en_US
dc.title La Catégorisation des Documents Ecrits en Langue Arabe en_US
dc.type Thesis en_US


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Chercher dans le dépôt


Parcourir

Mon compte