Une approche améliorée d’appariement de données

dc.contributor.authorMehennaoui, Nadhir
dc.contributor.authorNaili, Moussa
dc.date.accessioned2024-09-19T12:31:14Z
dc.date.available2024-09-19T12:31:14Z
dc.date.issued2024
dc.description.abstractRecord Linkage (RL) is the process of identifying the records that refers to the same real-world entity. Several RL approaches were proposed in the literature but most of them were introduced without a bloc’s sizes controlling technic. In this thesis, we propose an enhanced K-Modes-based RL approach, in which a new bloc size mechanism is introduced as a post-step to blocking. The experiments that have been done on a real-world dataset show satisfying results where most of the duplicate records were detected.en_US
dc.identifier.issnMM/822
dc.identifier.urihttp://10.10.1.6:4000/handle/123456789/5404
dc.language.isofren_US
dc.publisherUNIVERSITY BBAen_US
dc.titleUne approche améliorée d’appariement de donnéesen_US
dc.typeThesisen_US

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Mimoire Master.pdf
Size:
1.46 MB
Format:
Adobe Portable Document Format
Description:
La qualité de donnée est un concept très important et qui a un très grand impact sur le développement des entreprises c’est pour ça que ces dernières visent toujours à s’assurer que son système d’information est de qualité et cherchent des méthodes pour assurer cette qualité. Précédemment nous avons vu quatres chapitres dont le premier s’étale sur la définition de la qualité de données ainsi que ses critères, les causes de la non qualité ainsi que d’autre points la concernant. Dans le deuxième chapitre nous avons présenté une des méthodes de la littérature qui permet de détecter les doublons dans une base de données qui est le couplage d’enregistrement (L’appariement de données ) ainsi que les différents algorithmes de clustering. Le chapitre contribution représente ce que nous avons apporté en plus ou comme amélioration pour le L’appariement de données basé sur l’algorithme k-modes. L’amélioration que nous avons apportée à ce dernier est le contrôle de la taille des blocs des clusters en sortie de l’approche précédente, nous avons ajouté deux méthodes qui sont : la fusion et la division des blocs selon une taille Maxsize et Minsize que nous avons initialisés. Dans le dernier chapitre pour finir nous avons expérimenté nos méthodes selon différentes métriques d’évaluation et nous avons constaté que notre contribution améliore beaucoup le L’appariement de données et aide à détecter le plus grand nombre possible de doublons. Comme futurs travaux nous proposons de trouver une méthode qui permet de déterminer automatiquement les valeurs de Maxsize et Minsize correspondantes, afin de résoudre le cas ou il reste toujours un cluster dans LMn dont sa taille est inférieure à Minsize.

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: