Classification des cancers basée sur la sélection des gènes des données biopuces
dc.contributor.author | BOUCHELAL, Amel | |
dc.contributor.author | SELAMA, Fateh Mohammed Chaouki | |
dc.date.accessioned | 2024-09-17T11:39:56Z | |
dc.date.available | 2024-09-17T11:39:56Z | |
dc.date.issued | 2024 | |
dc.description.abstract | This thesis aims to address a major challenge in cancer research, namely the identification of the most relevant genes for cancer classification. To achieve this, a three-step approach was adopted. Firstly, classification algorithms were applied directly to biochip datasets. Subsequently, data quality was improved by applying preprocessing steps before reapplying the classification algorithms. Finally, preprocessed data was further enhanced by selecting the most relevant genes using selection techniques based on mutual information filtering, before reapplying the same classification algorithms. The results of this study revealed that the support vector machine algorithm achieved a classification rate of 100% with most of the databases used after selecting the relevant genes. The neural network algorithm also showed good performance in classifying cancer types. | en_US |
dc.identifier.issn | MM/816 | |
dc.identifier.uri | http://10.10.1.6:4000/handle/123456789/5381 | |
dc.language.iso | fr | en_US |
dc.publisher | UNIVERSITY BBA | en_US |
dc.subject | Mots-clés : Classification des cancers, Sélection des gènes, Sélection par filtre, Information mutuelle, Données biopuces | en_US |
dc.subject | Cancer classification, Gene selection, Filter selection, Mutual information, Biochip data. Ã | en_US |
dc.title | Classification des cancers basée sur la sélection des gènes des données biopuces | en_US |
dc.type | Thesis | en_US |
Files
Original bundle
1 - 1 of 1
- Name:
- memoire__4_ (3).pdf
- Size:
- 968.87 KB
- Format:
- Adobe Portable Document Format
- Description:
- Dans cette étude, notre objectif principal était de relever le défi crucial consistant à identifier les gènes les plus informatifs et pertinents, pour une détection précise et fiable des divers types de cancers. Pour y parvenir, nous avons élaboré un processus structuré en trois étapes, chacune visant à évaluer l’efficacité des algorithmes de classification dans différentes conditions. Dans un premier temps, nous avons appliqué directement les algorithmes de classification sur les données brutes, sans aucune manipulation préalable. Ensuite, nous avons amélioré la qualité des données en les prétraitant, notamment par la normalisation, la gestion des valeurs manquantes et la réduction du bruit, avant de réappliquer les mêmes algorithmes. Enfin, nous avons optimisé les données prétraitées en sélectionnant les gènes les plus pertinents à l’aide de techniques spécifiques avant de les soumettre aux algorithmes de classification. Les résultats obtenus ont montré que l’algorithme des machines à vecteurs de support (SVM) s’est distingué comme le plus performant, atteignant un taux de classification de 100% sur la majorité des bases de données après la sélection des variables pertinentes. Les réseaux de neurones (RN) ont également présenté des performances prometteuses. En revanche, les performances des algorithmes des arbres de décision et des k-plus proches voisins (KNN) étaient globalement inférieures. La solution proposée, qui implique une comparaison systématique d’algorithmes à travers différents scénarios de prétraitement et de sélection de variables, présente plusieurs avantages notables. Tout d’abord, elle permet une évaluation exhaustive des performances des divers algorithmes de classification sur des données génomiques, offrant ainsi un aperçu complet de leurs forces et faiblesses respectives. De plus, en intégrant des étapes de prétraitement et de sélection de variables, cette approche contribue à améliorer la qualité des données d’entrée en réduisant le bruit et la redondance, ce qui augmente la précision des modèles résultants. 57 Cependant, malgré ses nombreux avantages, la solution proposée présente également certaines limites à considérer. L’une des principales contraintes réside dans la complexité computationnelle accrue résultant de l’application de multiples algorithmes et techniques de prétraitement sur de vastes ensembles de données génomiques. De plus, bien que les techniques de sélection de variables telles que MIM, mRMR et JMI se soient révélées efficaces, elles peuvent parfois ne pas saisir certaines interactions complexes entre les gènes, nécessitant ainsi l’exploration de méthodes alternatives ou hybrides. Enfin, étant donné que notre étude s’est concentrée sur des ensembles de données spécifiques, la généralisation de nos résultats à d’autres contextes pourrait être limitée. Dans le cadre de travaux scientifiques futurs, nous prévoyons d’explorer des approches hybrides combinant différentes techniques de sélection de gènes. Cette démarche vise à tirer pleinement parti de la richesse des données génomiques disponibles tout en améliorant encore la précision de la détection du cancer. Cette avenue de recherche prometteuse ouvre de nouvelles perspectives pour une détection plus précoce et plus précise des divers types de cancers. En développant des techniques combinant différentes approches de sélection de gènes, nous espérons contribuer à l’amélioration des résultats cliniques et à une meilleure qualité de vie pour les patients atteints de cancer.
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed to upon submission
- Description: