Résumé:
La fouille de données est une technique d'analyse de données qui permet de découvrir des informations cachées et des relations entre des données. Elle est utilisée pour extraire des informations utiles à partir de grandes quantités de données non structurées. Notre étude s'est particulièrement concentrée sur la résolution du problème PPDM (Privacy preserving data mining) dans le contexte de la fouille d’itemsets fréquents à partir de bases de données transactionnelle. Le but étant d’effectuer un changement minimal sur la base afin de ne pas divulguer des informations sensibles lors du processus de fouille d’itemsets fréquents. Nous nous intéressons dans ce travail à l’étude, l’implémentation et la comparaison de deux approches heuristiques pour la résolution du problème PPDM: l’approche "Agrégée" qui supprimes certaines transactions et l’approche "Désaggrégée" qui supprime certains items. L’étude expérimentale a été effectuée sur deux bases de données : " Chess et Mushroom".
Data mining is a data analysis technique that uncovers hidden information and relationships between data. It is used to extract useful information from large quantities of unstructured data. Our study particularly focuses on the resolution of the PPDM (privacy preserving data mining) problem in the context of mining frequent itemsets from transactional databases. The aim is to perform a minimal change on the database in order to not disclose sensible information during the process of mining frequent itemsets. We are interested in this work on the study, the implementation and the comparison of two heuristic approaches for the resolution of the PPDM problem: The "Aggregate" approach, which removes some transactions, and the "Disaggregate" approach, which removes some items. The experimental study has been done on two databases: ‘Chess and Mushroom’