本项目完全由我个人开发。
项目背景: 结直肠癌(CRC)是全球常见的恶性肿瘤之一,早期诊断和预后评估对于治疗和生存至关重要。近年来,基于基因表达数据的机器学习模型在CRC的诊断和预测方面展现出巨大潜力。
项目目标: 本项目旨在筛选出用于预测CRC的关键基因,并构建一个经过Optuna超参数优化、可靠的机器学习模型。通过全面分析9个数据集,共1680个样本,开发一个CRC诊断预测模型,并比较21种机器学习分类模型,通过Optuna超参数优化进行验证,并在六个独立的外部队列中进行验证。此外,本研究还实验验证了核心诊断基因的表达模式。
项目内容:
数据收集与处理:收集9个数据集,包括1680个样本的基因表达数据,并进行数据清洗和预处理。
基因筛选与模型构建:通过比较21种机器学习分类模型,筛选出用于CRC诊断的关键基因,并构建预测模型。
模型优化与验证:利用Optuna超参数优化方法,对筛选出的模型进行优化,并在六个独立的外部队列中进行验证。
实验验证:对核心诊断基因的表达模式进行实验验证,以验证其在CRC诊断中的可靠性。
性能评估:评估模型的性能,包括线性判别分析(LDA)和另外四种机器学习模型(请具体说明这四种模型),在六个队列中排名前五,表现优异,AUC值超过0.99,所有其他性能指标均超过0.899。
项目意义: 本研究是首次在CRC诊断中应用四种特定的创新机器学习模型(请具体说明这四种模型),并在多个外部验证集中展示了稳健的性能,强调了我们的诊断模型的可靠性和泛化能力。这些结果为CRC个性化治疗方法的开发提供了新的思路,为早期检测和预后改善开辟了新的途径。