Représentation Hybride pour la classification des documents
dc.contributor.author | BELAZZOUG, Louiza | |
dc.contributor.author | SAOUD, Nour el houda | |
dc.date.accessioned | 2022-01-03T07:38:09Z | |
dc.date.available | 2022-01-03T07:38:09Z | |
dc.date.issued | 2021 | |
dc.description.abstract | Le travail effectué dans ce mémoire se situe dans le domaine de la fouille de texte et en particulier la classification automatique de textes. Le projet étudié le problème de catégorisation de textes de sports comme étant objectifs ou subjectifs. Pour cela nous avons suivi une représentation hybride des documents textuels qui contient le modèle sac de mots et morpho-syntactique à la fois. Pour la phase de classification nous avons appliqué ‘algorithme Naive Bayes combiné avec des algorithmes de recherche tel que Gras et PSO pour en servir à la réduction de la dimensionnalité. Abstract The work carried out in this thesis is in the field of text mining and in particular the automatic classification of texts. The project investigated the problem of categorizing sports texts as objective or subjective. For this we have followed a hybrid representation of textual documents which contains both the word bag and the morph-syntactic model. For the classification phase we applied ‘Naive Bayes algorithm combined with search algorithms such as Gras and PSO to be used for dimensionality reduction. ملخص العمل الذي تم تنفيذه في هذه الرسالة هو في مجال التنقيب عن النص وخاصة التصنيف الآلي للنصوص. حقق المشروع في مشكلة تصنيف النصوص الرياضية على أنها موضوعية أو ذاتية. لهذا، اتبعنا تمثي ا لً هجيناا للوثائق النصية التي تحتوي على كل من حقيبة الكلمات والنموذج الصرفي النحوي. بالنسبة لمرحلة التصنيف، طبقنا "خوارزمية Naive Bayes جن ا با إلى جنب مع خوارزميات البحث مثل Gras و PSO لاستخدامها في تقليل الأبعاد | en_US |
dc.identifier.issn | MM/644 | |
dc.identifier.uri | http://10.10.1.6:4000/handle/123456789/1635 | |
dc.language.iso | fr | en_US |
dc.publisher | Université Mohamed el-Bachir el-Ibrahimi Bordj Bou Arréridj Faculté de Mathématique et Informatique | en_US |
dc.title | Représentation Hybride pour la classification des documents | en_US |
dc.type | Thesis | en_US |
Files
Original bundle
1 - 1 of 1
- Name:
- memoire final louiza et nour.pdf
- Size:
- 2.15 MB
- Format:
- Adobe Portable Document Format
- Description:
- La fouille de texte en général et la classification automatique de textes en particulier constitue un domaine de recherche très actif et très bénéfique dans de nombreuses applications pratiques, surtout de nos jours où de gros volumes de textes sont disponibles sur le web. La quantité considérable et la forme brute des textes disponibles rend la tâche de leur fouille en vue par exemple de les catégoriser plutôt complexe et faisant appel à plusieurs techniques et algorithmes situés à plusieurs niveaux. On parle justement d’étapes de prétraitements linguistiques, de réduction de dimensionnalité, de classification et de visualisation et d’interprétation des résultats. Il est à noter que chacune des étapes citées ci-dessus utilisent différentes techniques et fait appel à de multiples méthodes et algorithmes. Dans ce travail, nous avons travaillé sur l’analyse de subjectivité d’articles de sport à l’aide d’une approche de classification textuelle. Outre le fait que nous avons suivi le pipeline général de ce type d’application avec une mise en oeuvre particulière pour l’application d’analyse de subjectivité, nous avons aussi expérimenté une panoplie de méthodes aussi bien au niveau de sélection d’attributs pour réduire la dimensionnalité (cinq méthodes) qu’au niveau de la classification automatique proprement dite (trois classificateurs). Cette étude détaillée nous a permis de mener une comparaison entre ces différentes méthodes et de souligner les conclusions suivantes entre autres : La combinaison entre l’algorithme GA et la représentation BOW a été pratiquement toujours meilleures aux autres combinaisons. Les méthodes de sélection d’attributs est très utiles pour l’amélioration des performances des classificateurs. Ceci était notamment très clair dans notre étude pour le cas du classificateur bag of words. Pour les travaux futurs, plusieurs pistes peuvent être explorées. On peut citer : Appliquer le système proposé à d’autres corpus de textes issus d’autres domaines. Etendre l’étude comparative à d’autres algorithmes de recherche et d’autres classificateurs. Généraliser le travail à d’autres langues, en particulier la langue arabe. Etc.
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed to upon submission
- Description: