La Reconnaissance du Langage Offensant dans le Contenu Arabe en Ligne
dc.contributor.author | Boussouf, Silia | |
dc.date.accessioned | 2024-10-23T09:23:54Z | |
dc.date.available | 2024-10-23T09:23:54Z | |
dc.date.issued | 2024 | |
dc.description.abstract | In this study, we addressed the issue of detecting offensive language on social media in Arabic, a language often underrepresented in natural language processing (NLP) research. By leveraging a recently published public dataset, we trained several machine learning and deep learning models to accomplish this task. The machine learning models used include Naive Bayes, SVM, Decision Tree, and Random Forest. In parallel, we explored deep learning architectures such as convolutional neural networks (CNN) and recurrent neural networks (RNN). Our experiments yielded remarkable results, demonstrating the effectiveness of these approaches in detecting offensive language in Arabic. To enhance user experience and facilitate the application of our work, we also developed a comprehensive user interface in Python. This interface allows for intuitive use of our detection models, making the technology accessible to a non-technical audience. The results obtained are promising and pave the way for future improvements, particularly through the optimization of current models and the exploration of new machine learning and deep learning techniques. | en_US |
dc.identifier.issn | MM/840 | |
dc.identifier.uri | http://10.10.1.6:4000/handle/123456789/5660 | |
dc.language.iso | fr | en_US |
dc.publisher | UNIVERSITY BBA | en_US |
dc.subject | Offensive language detection, offensive content, social media, hate speech, natural language processing, machine learning, deep learning, text classification | en_US |
dc.subject | Détection du langage offensif, contenus offensifs, réseaux sociaux, discours haineux, traitement automatique du langage, apprentissage automatique, apprentissage profond, classification de texte. | en_US |
dc.title | La Reconnaissance du Langage Offensant dans le Contenu Arabe en Ligne | en_US |
dc.type | Thesis | en_US |
Files
Original bundle
1 - 1 of 1
- Name:
- PFEE.pdf
- Size:
- 1.6 MB
- Format:
- Adobe Portable Document Format
- Description:
- L'objectif principal de notre travail était de détecter le langage offensif dans le contenu textuel en langue arabe, en particulier sur les réseaux sociaux, afin de fournir une solution efficace à ce problème qui affecte différentes catégories de personnes. Pour atteindre cet objectif, nous avons proposé une approche basée sur les domaines de l'Intelligence Artificielle, Spécialement de l'Apprentissage Automatique et de l'Apprentissage Profond, en appliquant différentes méthodes de classification des textes. Nous avons préparé notre dataset qui contient ensembles de données collectés à partir de Twitter, avec trois tâches distinctes: l'offensant et l’obscene et propre. Ces ensembles de données comprenaient des tweets en arabe standard ainsi que des dialectes variés, afin d'atteindre notre objectif de couvrir un large spectre de la langue arabe. Ensuite, nous avons utilisé des techniques de traitement du langage naturel, lors de l'étape de prétraitement des données, au cours desquelles nous avons nettoyé notre ensemble de données du bruit, normalisé certaines lettres, supprimé les mots vides et vectoriser nos données en utilisant TF-IDF et BOW. Enfin, différents modèles d'apprentissage automatique et profond sont appliqués pour la détection automatique du langage offensant : quatre classificateurs d'apprentissage automatique ont été testés : Machines à Support de Vecteurs, Naïve Bayes, Forêt Aléatoire et Arbre de Décision. Pour améliorer les performances et obtenir de meilleurs résultats, les travaux futurs incluront l'exploration de nouvelles approches de prétraitement des commentaires et d'algorithmes d'apprentissage. Des idées à tester pourraient inclure l'augmentation de la taille de l'ensemble de données en intégrant des données provenant de différents domaines et plateformes pour améliorer la précision de la classification, l'application d'un correcteur orthographique pour éliminer les fautes de frappe fréquentes dans les commentaires des utilisateurs, et l'utilisation d'algorithmes d'apprentissage plus avancés pour améliorer les capacités de classification.
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed to upon submission
- Description: