Classification des cancers basée sur la sélection des gènes des données biopuces

dc.contributor.authorBOUCHELAL, Amel
dc.contributor.authorSELAMA, Fateh Mohammed Chaouki
dc.date.accessioned2024-09-17T11:39:56Z
dc.date.available2024-09-17T11:39:56Z
dc.date.issued2024
dc.description.abstractThis thesis aims to address a major challenge in cancer research, namely the identification of the most relevant genes for cancer classification. To achieve this, a three-step approach was adopted. Firstly, classification algorithms were applied directly to biochip datasets. Subsequently, data quality was improved by applying preprocessing steps before reapplying the classification algorithms. Finally, preprocessed data was further enhanced by selecting the most relevant genes using selection techniques based on mutual information filtering, before reapplying the same classification algorithms. The results of this study revealed that the support vector machine algorithm achieved a classification rate of 100% with most of the databases used after selecting the relevant genes. The neural network algorithm also showed good performance in classifying cancer types.en_US
dc.identifier.issnMM/816
dc.identifier.urihttp://10.10.1.6:4000/handle/123456789/5381
dc.language.isofren_US
dc.publisherUNIVERSITY BBAen_US
dc.subjectMots-clés : Classification des cancers, Sélection des gènes, Sélection par filtre, Information mutuelle, Données biopucesen_US
dc.subjectCancer classification, Gene selection, Filter selection, Mutual information, Biochip data. Ãen_US
dc.titleClassification des cancers basée sur la sélection des gènes des données biopucesen_US
dc.typeThesisen_US

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
memoire__4_ (3).pdf
Size:
968.87 KB
Format:
Adobe Portable Document Format
Description:
Dans cette étude, notre objectif principal était de relever le défi crucial consistant à identifier les gènes les plus informatifs et pertinents, pour une détection précise et fiable des divers types de cancers. Pour y parvenir, nous avons élaboré un processus structuré en trois étapes, chacune visant à évaluer l’efficacité des algorithmes de classification dans différentes conditions. Dans un premier temps, nous avons appliqué directement les algorithmes de classification sur les données brutes, sans aucune manipulation préalable. Ensuite, nous avons amélioré la qualité des données en les prétraitant, notamment par la normalisation, la gestion des valeurs manquantes et la réduction du bruit, avant de réappliquer les mêmes algorithmes. Enfin, nous avons optimisé les données prétraitées en sélectionnant les gènes les plus pertinents à l’aide de techniques spécifiques avant de les soumettre aux algorithmes de classification. Les résultats obtenus ont montré que l’algorithme des machines à vecteurs de support (SVM) s’est distingué comme le plus performant, atteignant un taux de classification de 100% sur la majorité des bases de données après la sélection des variables pertinentes. Les réseaux de neurones (RN) ont également présenté des performances prometteuses. En revanche, les performances des algorithmes des arbres de décision et des k-plus proches voisins (KNN) étaient globalement inférieures. La solution proposée, qui implique une comparaison systématique d’algorithmes à travers différents scénarios de prétraitement et de sélection de variables, présente plusieurs avantages notables. Tout d’abord, elle permet une évaluation exhaustive des performances des divers algorithmes de classification sur des données génomiques, offrant ainsi un aperçu complet de leurs forces et faiblesses respectives. De plus, en intégrant des étapes de prétraitement et de sélection de variables, cette approche contribue à améliorer la qualité des données d’entrée en réduisant le bruit et la redondance, ce qui augmente la précision des modèles résultants. 57 Cependant, malgré ses nombreux avantages, la solution proposée présente également certaines limites à considérer. L’une des principales contraintes réside dans la complexité computationnelle accrue résultant de l’application de multiples algorithmes et techniques de prétraitement sur de vastes ensembles de données génomiques. De plus, bien que les techniques de sélection de variables telles que MIM, mRMR et JMI se soient révélées efficaces, elles peuvent parfois ne pas saisir certaines interactions complexes entre les gènes, nécessitant ainsi l’exploration de méthodes alternatives ou hybrides. Enfin, étant donné que notre étude s’est concentrée sur des ensembles de données spécifiques, la généralisation de nos résultats à d’autres contextes pourrait être limitée. Dans le cadre de travaux scientifiques futurs, nous prévoyons d’explorer des approches hybrides combinant différentes techniques de sélection de gènes. Cette démarche vise à tirer pleinement parti de la richesse des données génomiques disponibles tout en améliorant encore la précision de la détection du cancer. Cette avenue de recherche prometteuse ouvre de nouvelles perspectives pour une détection plus précoce et plus précise des divers types de cancers. En développant des techniques combinant différentes approches de sélection de gènes, nous espérons contribuer à l’amélioration des résultats cliniques et à une meilleure qualité de vie pour les patients atteints de cancer.

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: