Résumé:
Topic modeling is a type of unsupervised quantitative analysis that aims to discover latent semantic structures (themes or topics) that appear in a set of unstructured texts. The field of topic modeling has a number of simple and advanced techniques that allow the extraction of topics that are necessary to summarize a given textual content. However, the performance of these methods is questionable in languages other than English or languages that are based on Latin letters. In this project, we have implemented an application to exploit the most used topic modeling methods on a textual data set in Arabic. The results note the performance of the LSA model compared to other competing models, namely LDA and NMF La modélisation thématique est un type d‟analyse quantitative non-supervisée qui vise à découvrir des structures sémantiques latentes (thématiques ou sujets) qui apparaissent dans un ensemble de textes non structurés. Le domaine de la modélisation thématique compte un certain nombre de méthodes et de techniques simples ou avancées qui permettent l‟extraction des thématiques nécessaires pour résumer un contenu textuel donné. Cependant, la performance de ces méthodes est contestable dans les langues autres que la langue anglaise ou bien les langues qui sont basées sur les lettres latins. Dans ce projet, nous avons implémenté une application qui permet d‟appliquer les méthodes de modélisation thématique les plus utilisées, sur un jeu de données textuelles en langue arabe. Les résultats obtenus notent la performance du modèle LSA par rapport aux autres modèles concurrents, à savoir LDA et NMF