Contribution à la reconnaissance du contenu Textuel dans les anciens manuscrits maghrébins

Soumia, DJAGHBELLOU

→
Faculté des mathématiques et de l'informatique
→
Doctorat d’Informatique
→
Voir le document

Contribution à la reconnaissance du contenu Textuel dans les anciens manuscrits maghrébins

Soumia, DJAGHBELLOU

URI: https://dspace.univ-bba.dz:443/xmlui/handle/123456789/3672

Date: 2023

Résumé:

Le sujet principal de cette thèse est de contribuer à la reconnaissance automatique de l'écriture manuscrite maghrébine, qui est un style d'écriture présent dans le patrimoine manuscrit algérien. Les travaux de recherche ont porté sur la construction, la proposition et la publication d'une nouvelle base de données appelée HAMCDB (Handwritten Arabic Maghrebi Characters DataBase), qui est la première du genre. Cette base de données est constituée d'un ensemble d'images de caractères arabes isolés écrits dans le style maghrébin, collectées à partir d'anciens documents manuscrits selon un processus bien défini en plusieurs phases. La base de données est composée de 1560 images, réparties en deux sous-ensembles d'apprentissage et de test. La création de la base a été suivie par le développement d'un modèle de reconnaissance approprié basé sur trois phases principales : l'extraction de primitives/caractérisation, l'intégration d'une architecture profonde (auto-encoder) pour améliorer les caractéristiques, et l'approche KNN pour la classification des images. Le système développé a montré son efficacité grâce aux résultats obtenus. Cette contribution n'était pas la seule dans le domaine de la reconnaissance de l'écriture arabe manuscrite. Elle a été précédée par d'autres travaux, dont un premier document "survey" qui a défini le domaine dans son ensemble en exposant tous ses aspects, ses divers systèmes et leurs phases, ainsi que des études comparatives entre toutes les bases de données existantes (privées et publiques), ainsi qu'entre les travaux récents développés dans ce domaine. Une autre contribution a consisté à tester une nouvelle combinaison de techniques adoptées pour les caractères arabes. Le modèle a été appliqué sur une base de données publique, et les résultats obtenus ont assuré de bonnes performances du système.The main subject of this thesis is to contribute to the automatic recognition of Maghrebi handwriting, which is a writing style present in the Algerian manuscript heritage. The research work focused on the construction, proposal, and publication of a new database called HAMCDB (Handwritten Arabic Maghrebi Characters Database), which is the first of its kind. This database consists of a set of images of isolated Arabic characters written in the Maghrebi style, collected from old manuscripts according to a well-defined process in several phases. The database is composed of 1560 images, divided into two subsets for training and testing. The creation of the database was followed by the development of a suitable recognition model based on three main phases: feature extraction/characterization, integration of a deep architecture (auto-encoder) to enhance the features, and the KNN approach for image classification. The developed system demonstrated its effectiveness through the obtained results. This contribution was not the only one in the field of Arabic handwriting recognition. It was preceded by other works, including a first "survey" document that defined the field as a whole by exposing all its aspects, various systems, and their phases, as well as comparative studies between all existing databases (private and public), and recent works developed in this field. Another contribution was to test a new combination of techniques adopted for Arabic characters. The model was applied to a public database, and the obtained results ensured good performance of the system. الموضوع الرئيسي والهدف الاساسي من هذه الأطروحة هو المساهمة في التعرف الالي على الخط المغاربي، هذا الخط أو هذا النمط من الكتابة الحاضرة في تراث المخطوطات الجزائرية. في هذا الصدد، تتمثل اعمالنا في مجال التعرف الالي على الكتابة العربية المكتوبة بخط اليد، بشكل أساسي في تصميم واقتراح ونشر قاعدة بيانات جديدة وفريدة تسمى HAMCDB-Handwritten Arabic Maghrebi Characters DataBase -). تتكون قاعدة البيانات هذه من مجموعة من الصور لأحرف عربية منفردة، مكتوبة بالخط المغربي، تم جمع هذه الصور من مجموعة وثائق لمخطوطات مغربية قديمة، وباتباع طريقة منظمة جيدًا تتضمن مجموعة من المراحل، من أجل إنشاء هذه القاعدة التي تضم 1560 صورة، مقسمة إلى مجموعتين فرعيتين؛ التعلم والاختبار. عقب إنشاء قاعدة البيانات هذه تطوير نموذج التعرف المناسب، يعتمد هذا النموذج على ثلاث مراحل رئيسية: أولا استخراج خصائص او مواصفات كل صورة، والخطوة الثانية من خلال دمج بنية عميقة (التشفير التلقائي) للتحسين من هذه الخصائص وأخيرا استخدام خوارزمية KNN كنهج للقيام بعملية تصنيف هذه الصور. حيث أظهر النظام الذي تم تطويره فعاليته من خلال النتائج الجيدة التي تم الحصول عليها. ولم تكن هذه المساهمة الوحيدة، فقد سبقتها أعمال إضافية أخرى في مجال التعرف على الحروف العربية المكتوبة بخط اليد، وتتمثل أولا في انجاز أول مقال "مسح" يقوم بإعطاء وصف شامل للمجال بجميع جوانبه واساسياته وأنظمته المختلفة بمراحلها، مع تقديم دراسات مقارنة بين جميع قواعد البيانات الموجودة (الخاصة والعامة)، وايضا بين بعض الأعمال الحديثة التي تم تطويرها في هذا المجال.

Afficher la notice complète