尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 利用基因表达数据对肿瘤进行分类是治疗肿瘤的一种新型手段,由于每段基因中包括很多基因片段,并且真正对疾病产生影响的通常只是其中很少一部分,直接对基因表达数据进行分析难度较大,且没有必要,因此特征选择成为针对基因表达数据分析研究的重点... 展开 利用基因表达数据对肿瘤进行分类是治疗肿瘤的一种新型手段,由于每段基因中包括很多基因片段,并且真正对疾病产生影响的通常只是其中很少一部分,直接对基因表达数据进行分析难度较大,且没有必要,因此特征选择成为针对基因表达数据分析研究的重点。特征选择方法在庞大的基因数据中选择与肿瘤有关的基因,对研究突变基因作用于人体而导致肿瘤出现的原理有重要意义。针对基因表达数据,本文借助统计检验方法在特征选择及冗余去除方面进行了研究。具体工作如下: (1)提出了基于卡方检验的最小冗余特征选择方法,利用卡方独立性检验来判定不同基因与类别的相关性,借此来缩小特征子集规模,同时去除了特征子集中冗余性较大的基因。实验结果表明,卡方检验具有较好的降低维度能力,且当所选取特征数小于10时仍能得到较好的分类准确率。 (2)基于五种统计检验方法,对同特征内部结构进行分析,提出了分类别的特征基因选择方法,即计算同一特征不同类别数据之间的相似相关性。在此基础上,给出了WMW-MR算法、K-MR算法、S-MR算法、t-MR算法和F-MR算法。通过与不同分类器结合实验,我们得到Wilcoxon-Mann-Whitney秩和检验挑选特征基因的能力最强,即相较于K-MR算法、S-MR算法、t-MR算法和F-MR算法,WMW-MR算法选择出的特征子集分类效果更为理想。 (3)由于基因数据较难获取,基因表达数据通常是不平衡的,不同类别的数据量不一致。为了更好地进行分析,本文引入了自适应合成过采样(ADASYN)方法,来克服样本不平衡的问题。虽然过采样技术生成的样本不具有实际意义,可能产生噪声数据,但实证结果显示,ADASYN方法与Wilcoxon-Mann-Whitney秩和检验相结合,而后进行去冗余算法,能够得到较高的分类准确率。 相较于已有的特征基因选择方法,本文所提出的统计检验方法,分别通过分析特征携带信息与类别的相关度和同特征内部不同类别的数据的相似度,来度量特征基因的重要性,所提模型算法实现简单。同时,通过对多个数据集进行实验,结果发现本文所提算法具有较好的特征选择能力。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。