Résumé:
Résumé :
Le problème traité dans ce mémoire s’inscrit dans le cadre de la décontamination des séquences
d’ADN, l’objectif est de concevoir un modèle de décontamination basée sur la classification
supervisée. L’approche proposée consiste en une classification (cible ou contaminant) après
avoir extrait certains attributs à savoir le groupe d’attributs IMM et K-gram. Après l’étude de
performances, les machines à vecteurs supports (SVM) ont été plus performantes que le KNN
et les arbres de décision. L’évaluation du modèle est faite à partir des expérimentations sur les
séquences issues d’un sequençage à haut débit en utilisant le simulateur MetaSim .
Mots clés :Décontamination des séquences d’ADN, classification supervisée, SVM, KNN,
arbres de décision, K-gram, IMM,sequençage à haut débit, MetaSim.
Abstract :
The problem addressed in this thesis falls within the framework of the decontamination of
DNA sequences, the objective is to design a decontamination model based on the supervised
classification . The proposed approach consists of a classification (target or contaminant) after
extracting some attributes namely the IMM and K-gram attribute group. After the study performance,
support vector machines (SVM) have been more efficient than the KNN and decision trees. The
evaluation of the model is made from experiments on high-throughput sequencing’s sequences,
using the MetaSim simulator.
Key-words : Decontamination of DNA sequences, supervised classification, SVM, KNN,
decision trees, K-gram, IMM,high-throughput sequencing, MetaSim..