在Kaggle ISIC2024中,要求开发基于图像的算法,以识别具有 3D 全身照片 (TBP) 中单病灶裁剪的组织学确诊的皮肤癌病例。图像质量类似于智能手机的特写照片。设计的二元分类算法可用于无法获得专业护理的环境,并改进早期皮肤癌检测的分类,评价指标是在高于 80% 真阳性率 (TPR) 的 ROC 曲线下部分面积 (pAUC) ,以对恶性样本进行二元分类,比赛数据集由诊断性标记的图像和其他元数据组成,图像格式为 JPEG,关联的.csv文件包含二进制诊断标签 (target)、可能的输入变量(例如age_approx, sex, anatom_site_general等) 和其他属性 (例如图像源和精确诊断),一共401059行记录,56列,其中涉及对csv文件的缺失值填补,非数值特征的onthot编码,特征重要性可视化