专家论坛|刘景丰:深度学习在原发性肝癌相关诊断模型中的应用与前景( 三 )


1.5构建基因组学模型协助早期诊断
2014年Ibrahim等[32]基于深度学习和主动学习,进行特征性选择的思想在生物信息领域的模型构建,通过考虑miRNA和基因之间的生物关系,扩展使用了该技术的miRNA,集成了两种无监督机器学习方法,选择最少的最有鉴别力的基因,提高了肝癌样本分类的准确性,所提出的特征性选择方法优于经典的功能选择算法 。 2015年Gui等[33]构建了一个源自STRING数据库中蛋白质-蛋白质相互作用(PPI)数据的分子相互作用网络,并确定187个基因之间的最短路径与机器学习方法确定的基因,且找到了117个基因探针,可以最优的分离肿瘤和非肿瘤样本 。 为理解HCC的发展过程提供了新的视角 。
随着基因测序技术的发展,大量的基因测序数据随着复杂的深度学习技术的提高处理能力也得到提升 。 2018年Augello等[34]报道,在预测HCC的生物标志物与HCV相关肝硬化患者风险的研究中,使用机器学习分类器发现MICA的基因位点rs2596542和rs2596538变异体值得进一步研究,其与HCV相关肝癌关系密切 。 在一项从肝移植受者的移植肝脏中获得的59个组织样本的研究中,Kim等[35]制作了cDNA微阵列,每个样本中有超过9000个基因 。 通过使用KNN和支持向量机方法,在肝硬化有发生肝癌风险的高危患者中识别出30个显著改变基因的分子标记 。 这些基因可以作为诊断高危人群早期肝癌的候选标记,并可能指导新的化学预防策略 。 2020年Shen等[36]利用数据库和机器学习方法,构建并验证了HCC患者复发的预测模型,获得了预测肝癌早期复发的基因信号,并验证了突变的基因,准确度为74.19%,而模型的验证成功率达到80%,为临床预测肝癌复发提供了有意义的指导 。
2构建模型预测肝癌术后复发与生存风险应用
肝癌术后复发风险、生存预测等关系着患者术后及后期的生命健康,通过机器深度学习的相关研究为临床患者的治疗提供了很多指导,所构建的预测模型在临床中也得到初步应用 。 2012年Ho等[37]报道基于HCC数据库,对接受肝切除患者术后1、3、5年的无病生存率建模预测,分别使用ANN、逻辑回归(LR)及决策树3种算法构建了模型,结果人工神经网络模型(ANNS)的精确度更高,表明在医疗决策系统中使用ANNS对肝切除术后患者预测较为理想 。 2012年Shi等[38]报告了目前最大样本量的模型评估研究,共纳入22926例接受过肝切除术的HCC患者,通过传统的逻辑回归模型和人工神经网络模型比较分析,ANNS在预测住院病死率方面更准确(准确度97.28%),更具有综合评价的意义 。 2014年Qiao等[39]使用ANN、LR建立早期HCC根治切除手术的患者术后生存预测模型,发现ANNS比其他模型AUC更高 。 机器学习在处理含有缺失值的数据集时具有较大的灵活性 。 2020年Huang等[40]对7919例肝癌患者临床病理资料进行分析报告,在使用Cox回归、深度学习、随机生存森林、极度梯度等算法构建肝癌根治性切除术后复发预测模型发现,XGBoost的精确度最高 。 以上研究结果证明ANN等机器深度学习在肝癌患者预后预测模型中具有良好的前景,在医疗决策支持系统中应用的可行性 。
Tseng等[41]2015年为了提高利用多个测量值预测临床结局的准确性,提出了一种新的多时间序列数据处理算法,收集了83例肝癌患者的临床资料,采用径向基函数核的多测量支持向量机作为肝癌复发多元测量随机森林回归的模型 。 结果提示该算法能显著提高HCC复发预报性能,且多次测量比单次测量更有价值 。 2017年Qiu等[42]通过使用机器学习中Lasso算法及SVM-RFE算法,针对早期576例肝癌患者的基因CpG甲基化水平检测所得到的数据建模分析,从甲基化的角度建立了预测早期肝癌复发风险的模型 。 Xu等[43]2017年也对血清中循环肿瘤DNA甲基化水平进行检测,共检测1098例肝癌患者和835例正常人,数据使用Lasso算法及随机森林算法筛选,共选出10个标志物建立了肝癌诊断模型;并使用机器学习中Lasso-Cox算法筛选出8个标志物构建预测肝癌预后风险模型 。 由此可见术后复发与生存风险模型的建立通过深度学习的方法也可达到一定临床指导效果 。