Contribution à la reconnaissance du contenu Textuel dans les anciens manuscrits maghrébins

dc.contributor.authorSoumia, DJAGHBELLOU
dc.date.accessioned2023-05-10T08:59:14Z
dc.date.available2023-05-10T08:59:14Z
dc.date.issued2023
dc.description.abstractLe sujet principal de cette thèse est de contribuer à la reconnaissance automatique de l'écriture manuscrite maghrébine, qui est un style d'écriture présent dans le patrimoine manuscrit algérien. Les travaux de recherche ont porté sur la construction, la proposition et la publication d'une nouvelle base de données appelée HAMCDB (Handwritten Arabic Maghrebi Characters DataBase), qui est la première du genre. Cette base de données est constituée d'un ensemble d'images de caractères arabes isolés écrits dans le style maghrébin, collectées à partir d'anciens documents manuscrits selon un processus bien défini en plusieurs phases. La base de données est composée de 1560 images, réparties en deux sous-ensembles d'apprentissage et de test. La création de la base a été suivie par le développement d'un modèle de reconnaissance approprié basé sur trois phases principales : l'extraction de primitives/caractérisation, l'intégration d'une architecture profonde (auto-encoder) pour améliorer les caractéristiques, et l'approche KNN pour la classification des images. Le système développé a montré son efficacité grâce aux résultats obtenus. Cette contribution n'était pas la seule dans le domaine de la reconnaissance de l'écriture arabe manuscrite. Elle a été précédée par d'autres travaux, dont un premier document "survey" qui a défini le domaine dans son ensemble en exposant tous ses aspects, ses divers systèmes et leurs phases, ainsi que des études comparatives entre toutes les bases de données existantes (privées et publiques), ainsi qu'entre les travaux récents développés dans ce domaine. Une autre contribution a consisté à tester une nouvelle combinaison de techniques adoptées pour les caractères arabes. Le modèle a été appliqué sur une base de données publique, et les résultats obtenus ont assuré de bonnes performances du système.The main subject of this thesis is to contribute to the automatic recognition of Maghrebi handwriting, which is a writing style present in the Algerian manuscript heritage. The research work focused on the construction, proposal, and publication of a new database called HAMCDB (Handwritten Arabic Maghrebi Characters Database), which is the first of its kind. This database consists of a set of images of isolated Arabic characters written in the Maghrebi style, collected from old manuscripts according to a well-defined process in several phases. The database is composed of 1560 images, divided into two subsets for training and testing. The creation of the database was followed by the development of a suitable recognition model based on three main phases: feature extraction/characterization, integration of a deep architecture (auto-encoder) to enhance the features, and the KNN approach for image classification. The developed system demonstrated its effectiveness through the obtained results. This contribution was not the only one in the field of Arabic handwriting recognition. It was preceded by other works, including a first "survey" document that defined the field as a whole by exposing all its aspects, various systems, and their phases, as well as comparative studies between all existing databases (private and public), and recent works developed in this field. Another contribution was to test a new combination of techniques adopted for Arabic characters. The model was applied to a public database, and the obtained results ensured good performance of the system. الموضوع الرئيسي والهدف الاساسي من هذه الأطروحة هو المساهمة في التعرف الالي على الخط المغاربي، هذا الخط أو هذا النمط من الكتابة الحاضرة في تراث المخطوطات الجزائرية. في هذا الصدد، تتمثل اعمالنا في مجال التعرف الالي على الكتابة العربية المكتوبة بخط اليد، بشكل أساسي في تصميم واقتراح ونشر قاعدة بيانات جديدة وفريدة تسمى HAMCDB-Handwritten Arabic Maghrebi Characters DataBase -). تتكون قاعدة البيانات هذه من مجموعة من الصور لأحرف عربية منفردة، مكتوبة بالخط المغربي، تم جمع هذه الصور من مجموعة وثائق لمخطوطات مغربية قديمة، وباتباع طريقة منظمة جيدًا تتضمن مجموعة من المراحل، من أجل إنشاء هذه القاعدة التي تضم 1560 صورة، مقسمة إلى مجموعتين فرعيتين؛ التعلم والاختبار. عقب إنشاء قاعدة البيانات هذه تطوير نموذج التعرف المناسب، يعتمد هذا النموذج على ثلاث مراحل رئيسية: أولا استخراج خصائص او مواصفات كل صورة، والخطوة الثانية من خلال دمج بنية عميقة (التشفير التلقائي) للتحسين من هذه الخصائص وأخيرا استخدام خوارزمية KNN كنهج للقيام بعملية تصنيف هذه الصور. حيث أظهر النظام الذي تم تطويره فعاليته من خلال النتائج الجيدة التي تم الحصول عليها. ولم تكن هذه المساهمة الوحيدة، فقد سبقتها أعمال إضافية أخرى في مجال التعرف على الحروف العربية المكتوبة بخط اليد، وتتمثل أولا في انجاز أول مقال "مسح" يقوم بإعطاء وصف شامل للمجال بجميع جوانبه واساسياته وأنظمته المختلفة بمراحلها، مع تقديم دراسات مقارنة بين جميع قواعد البيانات الموجودة (الخاصة والعامة)، وايضا بين بعض الأعمال الحديثة التي تم تطويرها في هذا المجال.en_US
dc.identifier.issnMD/16
dc.identifier.urihttp://10.10.1.6:4000/handle/123456789/3672
dc.language.isofren_US
dc.publisherUniversité de Bordj Bou Arreridj Faculty of Mathematics and Computer Scienceen_US
dc.subject: Reconnaissance automatique de l’écriture, le style maghrébin, le patrimoine manuscrit algérien, HAMCDB, caractérisation, classification, auto-encoderen_US
dc.subject: Automatic handwriting recognition, Maghrebian style, Algerian manuscript patrimony, HAMCDB, feature extraction, classification, auto-encoderen_US
dc.subjectالتعرف الآلي على خط اليد، النمط المغربي، التراث الجزائري للمخطوطات استخراج الميزات، التصنيف، التشفير التلقائي ,HAMCen_US
dc.titleContribution à la reconnaissance du contenu Textuel dans les anciens manuscrits maghrébinsen_US
dc.typeThesisen_US

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
CV Arabic (1).pdf
Size:
1012.96 KB
Format:
Adobe Portable Document Format
Description:
Malgré son importance dans divers domaines tels que la lecture automatique de chèques, de formulaires administratifs et d'adresses postales, la reconnaissance de l'écriture manuscrite arabe reste relativement limitée en termes d'utilisation, de domaines d'exploitation et de styles d'écriture traités. La plupart des bases de données, publiques et privées, proposent et suivent le même style d'écriture, à savoir l'arabe manuscrit ou imprimé, ce qui conduit à un manque de variété des styles. Dans cette thèse, nous avons voulu attirer l'attention sur la calligraphie arabe-maghrébine, également connue sous le nom de style maghrébin. Ce style antique par son histoire est nouveau dans le domaine de la reconnaissance automatique de l'écriture manuscrite. Nous avons travaillé sur la construction d'une première version de la base de données (HAMCDB) des caractères arabes écrits en style maghrébin par différents scripteurs. La base de données HAMCDB contient 1560 images collectées à partir d'anciens manuscrits algériens. Elle est divisée en deux sous-ensembles (d'entraînement/apprentissage et de test) utilisés pour tester et valider le modèle de reconnaissance proposé. Ce système utilise différentes approches et techniques pour la caractérisation, suivies de l'intégration d'une architecture profonde (auto-encodeur) dans le but d'améliorer les primitives extraites, qui sont ensuite utilisées par le classificateur pour catégoriser et identifier les images. Nous avons testé ce système sur une deuxième base de données publique (AHCD), et les résultats ont démontré sa viabilité. Nous avons également mené des expérimentations sur la reconnaissance de l'écriture arabe manuscrite hors-ligne sur la base de données publique AHCD, en utilisant le descripteur HOG (Histogram of Oriented Gradients) et le classificateur DRB (Deep Rule-Based). Cette combinaison de techniques a montré son efficacité à travers les taux de classification obtenus, qui ont été comparés à ceux d'autres systèmes, démontrant que notre système offre les meilleures performances. La proposition et la publication de cette nouvelle base de données ont été précédées par une première série d'expérimentations et de contributions dans le domaine de la reconnaissance de l'écriture arabe manuscrite hors-ligne.

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: