Résumé:
The study and comparison of documents has proven to be a very important task for the detection of plagiarism, the retrieval of new information as well as the categorization of documents
VSMs (Vector Space Models) are one of the most efficient models of the information retrieval (IR) system, These models allow to represent complex information in a relatively simplistic form, which makes it possible to apply vector computation for text analysis.
This project aims to develop a text comparison system based on VSMs which allows to indicate the correspondence rate (similarity) between two texts or given documents using the python language.
Key Words:
VSM- Vector Space Models- Document analysis- Plagiarism detection- Python
ملخص :
أثبتت دراسة الوثائق ومقارنتها أنها مهمة بالغة الأهمية للكشف عن السرقات الأدبية واسترجاع المعلومات الجديدة وكذلك
تصنيف الوثائق .
تعد VSM(Vector Space Models) واحدة من أكثر نماذج نظام استرجاع المعلومات كفاءة (IR). تسمح هذه النماذج
بتمثيل المعلومات المعقدة في شكل مبسط نسبيًا ، مما يسمح بتطبيق حساب المتجه على تحليل النصوص.
يهدف هذا المشروع إلى تطوير نظام مقارنة نص يعتمد على VSMs التي يمكن أن تشير إلى معدل التطابق )التشابه( بين
نصين أو مستندات معينة باستخدام لغة python.
كلمات مفتاحية :
45
تحليل الوثائق كشف السرقة الأدبية – - - Vector Space Models VSM - بايثون
Résumé :
L’étude et la comparaison des documents s’est montrée une tâche très importante pour la détection de plagiat, la récupération de nouvelles informations ainsi que la catégorisation des documents Les VSM(Vector Space Models) sont l’un des modèles les plus efficaces du système de recherche d’informations (IR) (information retrieval, Ces modèles permettent de représenter des informations complexes sous une forme relativement simpliste, ce qui permet d'appliquer le calcul vectoriel à l'analyse de textes.
Ce projet vise à développer un système de comparaison de textes basés sur les VSM et qui permet d’indiquer le taux de correspondance (similarité) entre deux textes ou documents donnés en utilisant la langages python.
Mots clés :
VSM -Vector Space Models- Analyse des documents – détection de plagiat- Python