尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 癌症是威胁人类健康的一个主要因素,具有复杂性和多发性。如今生物医学技术快速发展,多种癌症的亚型已经被发掘出来,不同亚型有不同的发生机制,因此准确的癌症亚型判别对其早期诊断和靶向治疗至关重要。随着高通量技术的发展,大量基因序列信息、... 展开 癌症是威胁人类健康的一个主要因素,具有复杂性和多发性。如今生物医学技术快速发展,多种癌症的亚型已经被发掘出来,不同亚型有不同的发生机制,因此准确的癌症亚型判别对其早期诊断和靶向治疗至关重要。随着高通量技术的发展,大量基因序列信息、转录数据、蛋白质数据涌现出来,充分利用这些数据来判别与临床密切相关的癌症亚型是一个重要的研究方向。常见的癌症中,胃癌的发病率极高,临床上基于形态、图像进行亚型诊断的方法存在一定的缺陷,判别准确率较低。本文针对TCGA(The Cancer Genome Atlas)数据库中胃癌样本的microRNA(miRNA)数据和DNA甲基化数据,提出了对多类别数据平衡化处理的模型及胃癌亚型分类模型,有效的解决了样本亚型分布不平衡的问题,并实现了更准确的胃癌亚型分类。论文主要包括三个方面的工作: (1)对于miRNA和DNA甲基化这两种与胃癌亚型联系密切的数据集,本文提出使用自动编码器融合两种组学数据的方法,充分利用多组学数据之间的调控性。由于数据存在样本小、特征维度高、冗余多的问题,采取均分式Lasso(KLasso)算法做特征选择,然后使用注意力机制对特征添加权重。实验结果验证了所提方法的有效性,使分类准确性得到了提高。 (2)针对胃癌样本亚型分布不平衡的现象,提出了一个基于平衡度反馈抽样和Tomek link方法的混合模型,平衡了四种亚型的样本量,同时使分类结果更好。 (3)为提升对小样本数据的分类效果,本文提出了Two Boosting Deep Forest(TBDForest)分类模型,基于深度森林做了两部分优化:一是将每个级联层划分为两个子层,以增加模型的学习机会,提高分类准确性;二是综合考虑了模型中集成的随机树的性能,以标准差的形式添加到每个级联层中,从而改善子分类器对分类结果的影响,降低过拟合风险。最后与医学研究中应用广泛的五种分类模型:支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、极限梯度提升树(eXtreme Gradient Boosting,XGBoost)、卷积神经网络(Convolutional Neural Networks,CNN)和多粒度级联森林(multi-Grained Cascade Forest,gcForest)做实验对比,得到模型性能评价指标。 结果显示,本文提出的胃癌亚型分类模型在TCGA的胃癌多组学融合数据上有明显的优势,获得了97.87%的准确率,在本校医学院提供的胃癌患者数据集上得到了95.28%的准确率,具有良好的泛化能力,此外模型各项指标也均优于其他方法。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。