Abstract:
Le sujet principal de cette thèse est de contribuer à la reconnaissance automatique de l'écriture
manuscrite maghrébine, qui est un style d'écriture présent dans le patrimoine manuscrit
algérien. Les travaux de recherche ont porté sur la construction, la proposition et la
publication d'une nouvelle base de données appelée HAMCDB (Handwritten Arabic
Maghrebi Characters DataBase), qui est la première du genre. Cette base de données est
constituée d'un ensemble d'images de caractères arabes isolés écrits dans le style maghrébin,
collectées à partir d'anciens documents manuscrits selon un processus bien défini en plusieurs
phases. La base de données est composée de 1560 images, réparties en deux sous-ensembles
d'apprentissage et de test. La création de la base a été suivie par le développement d'un
modèle de reconnaissance approprié basé sur trois phases principales : l'extraction de
primitives/caractérisation, l'intégration d'une architecture profonde (auto-encoder) pour
améliorer les caractéristiques, et l'approche KNN pour la classification des images. Le
système développé a montré son efficacité grâce aux résultats obtenus. Cette contribution
n'était pas la seule dans le domaine de la reconnaissance de l'écriture arabe manuscrite. Elle a
été précédée par d'autres travaux, dont un premier document "survey" qui a défini le domaine
dans son ensemble en exposant tous ses aspects, ses divers systèmes et leurs phases, ainsi que
des études comparatives entre toutes les bases de données existantes (privées et publiques),
ainsi qu'entre les travaux récents développés dans ce domaine. Une autre contribution a
consisté à tester une nouvelle combinaison de techniques adoptées pour les caractères arabes.
Le modèle a été appliqué sur une base de données publique, et les résultats obtenus ont assuré
de bonnes performances du système.The main subject of this thesis is to contribute to the automatic recognition of Maghrebi
handwriting, which is a writing style present in the Algerian manuscript heritage. The
research work focused on the construction, proposal, and publication of a new database called
HAMCDB (Handwritten Arabic Maghrebi Characters Database), which is the first of its kind.
This database consists of a set of images of isolated Arabic characters written in the Maghrebi
style, collected from old manuscripts according to a well-defined process in several phases.
The database is composed of 1560 images, divided into two subsets for training and testing.
The creation of the database was followed by the development of a suitable recognition model
based on three main phases: feature extraction/characterization, integration of a deep
architecture (auto-encoder) to enhance the features, and the KNN approach for image
classification. The developed system demonstrated its effectiveness through the obtained
results. This contribution was not the only one in the field of Arabic handwriting recognition.
It was preceded by other works, including a first "survey" document that defined the field as a
whole by exposing all its aspects, various systems, and their phases, as well as comparative
studies between all existing databases (private and public), and recent works developed in this
field. Another contribution was to test a new combination of techniques adopted for Arabic
characters. The model was applied to a public database, and the obtained results ensured good
performance of the system.
الموضوع الرئيسي والهدف الاساسي من هذه الأطروحة هو المساهمة في التعرف الالي على الخط المغاربي، هذا الخط أو
هذا النمط من الكتابة الحاضرة في تراث المخطوطات الجزائرية. في هذا الصدد، تتمثل اعمالنا في مجال التعرف الالي
على الكتابة العربية المكتوبة بخط اليد، بشكل أساسي في تصميم واقتراح ونشر قاعدة بيانات جديدة وفريدة تسمى
HAMCDB-Handwritten Arabic Maghrebi Characters DataBase -).
تتكون قاعدة البيانات هذه من مجموعة من الصور لأحرف عربية منفردة، مكتوبة بالخط المغربي، تم جمع هذه الصور من
مجموعة وثائق لمخطوطات مغربية قديمة، وباتباع طريقة منظمة جيدًا تتضمن مجموعة من المراحل، من أجل إنشاء هذه
القاعدة التي تضم 1560 صورة، مقسمة إلى مجموعتين فرعيتين؛ التعلم والاختبار. عقب إنشاء قاعدة البيانات هذه تطوير
نموذج التعرف المناسب، يعتمد هذا النموذج على ثلاث مراحل رئيسية: أولا استخراج خصائص او مواصفات كل صورة،
والخطوة الثانية من خلال دمج بنية عميقة (التشفير التلقائي) للتحسين من هذه الخصائص وأخيرا استخدام خوارزمية KNN
كنهج للقيام بعملية تصنيف هذه الصور. حيث أظهر النظام الذي تم تطويره فعاليته من خلال النتائج الجيدة التي تم الحصول
عليها. ولم تكن هذه المساهمة الوحيدة، فقد سبقتها أعمال إضافية أخرى في مجال التعرف على الحروف العربية المكتوبة
بخط اليد، وتتمثل أولا في انجاز أول مقال "مسح" يقوم بإعطاء وصف شامل للمجال بجميع جوانبه واساسياته وأنظمته
المختلفة بمراحلها، مع تقديم دراسات مقارنة بين جميع قواعد البيانات الموجودة (الخاصة والعامة)، وايضا بين بعض
الأعمال الحديثة التي تم تطويرها في هذا المجال.