Résumé:
Le travail effectué dans ce mémoire se situe dans le domaine de la fouille de texte et en particulier la classification automatique de textes. Le projet étudié le problème de catégorisation de textes de sports comme étant objectifs ou subjectifs. Pour cela nous avons suivi une représentation hybride des documents textuels qui contient le modèle sac de mots et morpho-syntactique à la fois. Pour la phase de classification nous avons appliqué ‘algorithme Naive Bayes combiné avec des algorithmes de recherche tel que Gras et PSO pour en servir à la réduction de la dimensionnalité.
Abstract
The work carried out in this thesis is in the field of text mining and in particular the automatic classification of texts. The project investigated the problem of categorizing sports texts as objective or subjective. For this we have followed a hybrid representation of textual documents which contains both the word bag and the morph-syntactic model. For the classification phase we applied ‘Naive Bayes algorithm combined with search algorithms such as Gras and PSO to be used for dimensionality reduction.
ملخص
العمل الذي تم تنفيذه في هذه الرسالة هو في مجال التنقيب عن النص وخاصة التصنيف الآلي للنصوص. حقق المشروع
في مشكلة تصنيف النصوص الرياضية على أنها موضوعية أو ذاتية. لهذا، اتبعنا تمثي ا لً هجيناا للوثائق النصية التي
تحتوي على كل من حقيبة الكلمات والنموذج الصرفي النحوي. بالنسبة لمرحلة التصنيف، طبقنا "خوارزمية Naive Bayes جن ا با إلى جنب مع خوارزميات البحث مثل Gras و PSO لاستخدامها في تقليل الأبعاد