尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 基因具有记录和传递遗传信息的重要作用,基因正确表达与否直接决定着生命的安全与健康。基因表达数据为研究由基因突变而导致的疾病提供了大量的数据信息,如何有效的利用基因表达数据进行疾病诊断及相关药物研究,成为医学、生物信息学、统计学等多... 展开 基因具有记录和传递遗传信息的重要作用,基因正确表达与否直接决定着生命的安全与健康。基因表达数据为研究由基因突变而导致的疾病提供了大量的数据信息,如何有效的利用基因表达数据进行疾病诊断及相关药物研究,成为医学、生物信息学、统计学等多学科交叉研究的重要课题。人体细胞通常具有成千上万个基因,降低特征维度就成为基因表达数据预处理阶段必不可少的步骤,特征选择能够有效挑选出代表数据集信息的特征,去除噪声的影响,并且能够减少后续样本分类的工作量。此外,在现有许多数据集中,存在样本的分布不平衡性,这也为分类造成了较大的难度。因此,针对基因表达数据,本文在特征选择、样本平衡及样本分类的方面做了进一步的研究工作,主要工作内容如下: (1)度量标准对于特征选择方法是十分重要的,不同的度量标准往往能够达到不同的效果。本文采用常见的三种不同的度量标准运用于快速相关过滤式(FCBF)算法,并利用K-临近、判别分析和随机森林进行分类以判断度量标准对FCBF算法的影响。结果表明,SU与HSU对特征子集的控制效果相似,但是在分类准确率上,SU更加的平稳,波动小。NSU在不同数据集上都能较好的控制特征子集数目并达到较高的分类准确率。 (2)特征子集的数目一般情况下可以通过调节参数进行控制,由于FCBF算法本身不能控制特征子集数量,本文引入参数控制方法,通过参数来控制特征子集的数目,给出了带参数的FCBF算法。实验结果表明,过小或过大的特征子集都不利于样本分类,会降低分类准确度。在BREAST_A、COLON、MULTI_A三个数据集上,原始参数选择出的特征子集虽然去冗效果明显,但是也会去掉很多有用信息。 (3)本文提出一种基于样本均值距离的启发式过采样(SMOTE)改进算法,用以解决样本不平衡问题。重抽样时按照与样本均值距离从大到小依次在分位点处进行插值,避免了模糊边界的问题产生,同时对于降维前后抽样算法的结果进行了比对。实验结果表明,最优参数下进行的抽样实验不一定比原始参数的更优,而且,样本分布不平衡性较大的数据集利用前抽样效果最好,其余数据集则利用后抽样即可。 (4)在样本分类实验中,本文提出了根据分类样本与训练集中各类样本均值的欧式距离进行分类的算法。实验表明,样本均值分类算法可以替代K-临近和判别分析分类器,在除BRAIN、MULTI_A、ALL_AML数据集上能够达到更优的分类。 相对于已有的特征选择以及分类算法,本文提出的平衡样本均值及分类方法更加简便,且适用性较强,根据不同的数据特征和结果要求,可以随时变换选择标准,且在大部分数据集中能够表现出更优的分类效果。但是,特征选择是一个去冗余过程,平衡样本是一个增加过程,如何将这两个过程更好的结合起来,减少信息的损失,同时避免增加冗余信息和噪声,是本文需要进一步研究的问题。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。