L’objectif primordial de ce mémoire est de prédire les manifestations publiques au moyen d'algorithmes d'apprentissage automatique utilisant les fonctionnalités extraites des données des médias sociaux. En particulier, nous considérons le cas de « Hirak » qui a commencé en février 2019 en Algérie. L’objectif sera aussi de proposer un modèle de prédiction basé sur les méthodes de classification pour prédire les manifestations de masse sur la base du contenu public des médias sociaux à partir de Twitter. Afin d’atteindre les objectifs cités, nous fournissons un aperçu méthodologique de quatre méthodes de classification essentielles de l'apprentissage automatique, et nous comparons leur efficacité dans la classification des Tweets de protestation. Nous observons une bonne précision de classification de 74%, avec la méthode de régression logistique. Et nous observons également que les autres méthodes offrent une précision raisonnable entre 60% et 72%.
Abstract
The primary objective of this memory is to predict public protests by means of machine learning algorithms using features extracted from social media data. In particular, we consider the case of « Hirak » which started in February 2019 in Algeria. The goal will also be to come up with a classification-based prediction model to predict mass protests based on public social media content from Twitter. In order to achieve the stated goals, we provide a methodological overview of four essential machine learning (ML) classification methods, and we compare their effectiveness in classifying Protest Tweets. We observe a good classification precision of 74%, with the logistic regression method. And we also observe that the other methods offer a reasonable precision between 60% and 72%.
ملخص
الهدف الأساس ي لهذه المذكرة هو التنبؤ بالاحتجاجات العامة ع ن طريق خوارزميات التعلم الآلي باستخدام ميزات مستخرجة من بيانات
وسائل التواصل الاجتماعي. عل ى وجه الخصوص ، ننظر في قضية "الحراك" التي بدأت في فبراي ر 2019 في الجزائر. سيكون الهدف
أيضًا هو الخروج بنموذج تنبؤ قائم على التصنيف للتنبؤ بالاحتجاجات الجماهيرية بناءً على محتوى وسيلة التواصل الاجتماعي تويتر.
من أجل تحقيق الأهداف المذكورة ، نقدم نظرة عامة منهجية لأربع طرق تصنيف أساسية للتعلم الآلي ، ونقارن فعاليتها في تصنيف
التغريدات الاحتجاجية. نلاحظ دقة تصنيف جيدة بنسبة 74 ٪ بطريقة الانحدار اللوجستي. ونلاحظ أيضًا أن الطرق الأخرى توفر دقة
معقولة بين 60 ٪ و 72 .٪
L’objectif primordial de ce mémoire est de prédire les manifestations publiques au moyen d'algorithmes d'apprentissage automatique utilisant les fonctionnalités extraites des données des médias sociaux. En particulier, nous considérons le cas de « Hirak » qui a commencé en février 2019 en Algérie. L’objectif sera aussi de proposer un modèle de prédiction basé sur les méthodes de classification pour prédire les manifestations de masse sur la base du contenu public des médias sociaux à partir de Twitter. Afin d’atteindre les objectifs cités, nous fournissons un aperçu méthodologique de quatre méthodes de classification essentielles de l'apprentissage automatique, et nous comparons leur efficacité dans la classification des Tweets de protestation. Nous observons une bonne précision de classification de 74%, avec la méthode de régression logistique. Et nous observons également que les autres méthodes offrent une précision raisonnable entre 60% et 72%.
Abstract
The primary objective of this memory is to predict public protests by means of machine learning algorithms using features extracted from social media data. In particular, we consider the case of « Hirak » which started in February 2019 in Algeria. The goal will also be to come up with a classification-based prediction model to predict mass protests based on public social media content from Twitter. In order to achieve the stated goals, we provide a methodological overview of four essential machine learning (ML) classification methods, and we compare their effectiveness in classifying Protest Tweets. We observe a good classification precision of 74%, with the logistic regression method. And we also observe that the other methods offer a reasonable precision between 60% and 72%.
ملخص
الهدف الأساس ي لهذه المذكرة هو التنبؤ بالاحتجاجات العامة ع ن طريق خوارزميات التعلم الآلي باستخدام ميزات مستخرجة من بيانات
وسائل التواصل الاجتماعي. عل ى وجه الخصوص ، ننظر في قضية "الحراك" التي بدأت في فبراي ر 2019 في الجزائر. سيكون الهدف
أيضًا هو الخروج بنموذج تنبؤ قائم على التصنيف للتنبؤ بالاحتجاجات الجماهيرية بناءً على محتوى وسيلة التواصل الاجتماعي تويتر.
من أجل تحقيق الأهداف المذكورة ، نقدم نظرة عامة منهجية لأربع طرق تصنيف أساسية للتعلم الآلي ، ونقارن فعاليتها في تصنيف
التغريدات الاحتجاجية. نلاحظ دقة تصنيف جيدة بنسبة 74 ٪ بطريقة الانحدار اللوجستي. ونلاحظ أيضًا أن الطرق الأخرى توفر دقة
معقولة بين 60 ٪ و 72 .٪