La modélisation thématique pour le texte arabe

Thumbnail Image

Date

2022

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Topic modeling is a type of unsupervised quantitative analysis that aims to discover latent semantic structures (themes or topics) that appear in a set of unstructured texts. The field of topic modeling has a number of simple and advanced techniques that allow the extraction of topics that are necessary to summarize a given textual content. However, the performance of these methods is questionable in languages other than English or languages that are based on Latin letters. In this project, we have implemented an application to exploit the most used topic modeling methods on a textual data set in Arabic. The results note the performance of the LSA model compared to other competing models, namely LDA and NMF La modélisation thématique est un type d‟analyse quantitative non-supervisée qui vise à découvrir des structures sémantiques latentes (thématiques ou sujets) qui apparaissent dans un ensemble de textes non structurés. Le domaine de la modélisation thématique compte un certain nombre de méthodes et de techniques simples ou avancées qui permettent l‟extraction des thématiques nécessaires pour résumer un contenu textuel donné. Cependant, la performance de ces méthodes est contestable dans les langues autres que la langue anglaise ou bien les langues qui sont basées sur les lettres latins. Dans ce projet, nous avons implémenté une application qui permet d‟appliquer les méthodes de modélisation thématique les plus utilisées, sur un jeu de données textuelles en langue arabe. Les résultats obtenus notent la performance du modèle LSA par rapport aux autres modèles concurrents, à savoir LDA et NMF

Description

Keywords

fouille de textes, TALN, modélisation thématique, LSA, LDA, NMF., text mining, NLP, topic modeling, LSA, LDA, NMF, لية للغات الطبيعية, �� الحنقيب في النصىص, االآعالجة النمرجة االآىضىعية, LSA , LDA , NMF

Citation

Endorsement

Review

Supplemented By

Referenced By