Traiter le problème de déséquilibre de données en apprentissage automatique : le cas de la détection automatique des attitudes envers les rumeurs politiques en ligne

dc.contributor.authorM’HAMDI Nassima
dc.contributor.authorAMARA Maroua
dc.date.accessioned2023-09-20T09:51:18Z
dc.date.available2023-09-20T09:51:18Z
dc.date.issued2023
dc.description.abstractSocial media plays a crucial role in communication and information sharing in our time. However, the dissemination of data on these platforms poses a major challenge when it comes to distinguishing true from false information. Fake news spreads quickly, causing massive damage by spreading rumors and misinformation. In this project, our main objective was to develop an automatic classification system of attitudes towards online political rumors, taking into account the common challenge of data imbalance in this type of text classification task. We implemented and evaluated different classification approaches, such as set learning, oversampling (text augmentation), cost-aware learning, and single-class learning, to determine the most suitable to our problem. The results obtained highlight the remarkable performance of the oversampling approach compared to other competing approaches, including ensemble learning, cost-sensitive learning, and single-class learning. Social media plays a crucial role in communication and information sharing in our time. However, the dissemination of data on these platforms poses a major challenge when it comes to distinguishing true from false information. Fake news spreads quickly, causing massive damage by spreading rumors and misinformation. In this project, our main objective was to develop an automatic classification system of attitudes towards online political rumors, taking into account the common challenge of data imbalance in this type of text classification task. We implemented and evaluated different classification approaches, such as set learning, oversampling (text augmentation), cost-aware learning, and single-class learning, to determine the most suitable to our problem. The results obtained highlight the remarkable performance of the oversampling approach compared to other competing approaches, including ensemble learning, cost-sensitive learning, and single-class learning تلعب وسائل التواصل الاجتماعي دورًا مهمًا في التواصل ومشاركة المعلومات في عصرنا. ومع ذلك، فإن نشر البيانات على هذه المنصات يشكل تحديًا كبيرًا عندما يتعلق الأمر بالتمييز بين المعلومات الصحيحة والخاطئة. تنتشر الأخبار الكاذبة بسرعة، مما يتسبب في أضرار جسيمة من خلال نشر الإشاعات والمعلومات المضللة. في هذا المشروع، كان هدفنا الرئيسي هو تطوير نظام تصنيف آلي للمواقف تجاه الشائعات السياسية عبر الإنترنت، مع الأخذ في الاعتبار التحدي المشترك المتمثل في اختلال توازن البيانات في هذا النوع من مهام تصنيف النص. قمنا بتنفيذ وتقييم مناهج تصنيف مختلفة، مثل مجموعة التعلم، والاختزال )زيادة النص(، والتعلم المدرك للتكلفة، والتعلم من فئة واحدة، لتحديد الأنسب لمشكلتنا. النتائج التي تم الحصول عليها تسلط الضوء على الأداء الرائع لنهج الإفراط في أخذ العينات مقارنة بالنهج المنافسة الأخرى، بما في ذلك التعلم الجماعي، والتعلم الحساس للتكلفة، والتعلم من فئة واحدة. الكلمات المفتاحية: الأخبار الكاذبة، الشائعات، التصنيف الآلي، تصنيف النص، عدم توازن البيانات، التعلم الجماعي، التعلم الحساس للتكلفة، التعلم الفردي، التعلم المفرط.en_US
dc.identifier.issnMM/768
dc.identifier.urihttp://10.10.1.6:4000/handle/123456789/3928
dc.language.isofren_US
dc.publisherUNIVERSITY BBAen_US
dc.subjectfausses nouvelles, rumeurs, classification automatique, classification de texte, déséquilibre des données, apprentissage par ensemble, apprentissage sensible au coût, apprentissage mono-classe, apprentissage sur-échantillonnageen_US
dc.subjectfake news, rumors, automatic classification, text classification, data imbalance, ensemble learning, cost-sensitive learning, single-class learning, oversampling learningen_US
dc.subjectالكلمات المفتاحية: الأخبار الكاذبة، الشائعات، التصنيف الآلي، تصنيف النص، عدم توازن البيانات، التعلم الجماعي، التعلم الحساس للتكلفة، التعلم الفردي، التعلم المفرط.en_US
dc.titleTraiter le problème de déséquilibre de données en apprentissage automatique : le cas de la détection automatique des attitudes envers les rumeurs politiques en ligneen_US
dc.typeThesisen_US

Files

Original bundle

Now showing 1 - 2 of 2
Thumbnail Image
Name:
Rapport Rumor stance classification (3).pdf
Size:
2.99 MB
Format:
Adobe Portable Document Format
Description:
Thumbnail Image
Name:
Rapport Rumor stance classification (3).pdf
Size:
2.99 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: