尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 目前,以BERT(BidirectionalEncoderRepresentationsfromTransformers)为代表的预训练语言模型已经成为完成自然语言处理任务过程中非常重要的一个组成部分。但是,这类模型为了拥有足够的容量编码海量的语言知识,往往结构设计十分复杂。因此,对其... 展开 目前,以BERT(BidirectionalEncoderRepresentationsfromTransformers)为代表的预训练语言模型已经成为完成自然语言处理任务过程中非常重要的一个组成部分。但是,这类模型为了拥有足够的容量编码海量的语言知识,往往结构设计十分复杂。因此,对其进行预训练、微调和测试需要耗费海量的计算和存储资源,对实验环境提出了非常高的要求。为了节省资源开销,研究者们提出了一系列模型压缩方法,然而这些方法只关注了测试过程,忽视了微调,甚至以加大训练的资源开销为代价来实现,并未从根本上解决资源消耗问题。鉴于此,为了同时解决BERT预训练语言模型在微调和测试两个阶段的资源消耗问题,本文以文本分类任务为研究对象,提出了微调前进行模型截断的压缩方法,并设计了合理的参考指标根据任务特征确定截断位置,自适应的实现模型压缩。具体的,本文主要研究内容和贡献如下: 一、对现有模型压缩方法做了详细的综述。本文介绍了现有的4类模型压缩方法,包括知识蒸馏、模型剪枝、量化和矩阵分解,阐述了各类方法的概念,并对这些方法进行了归类和对比分析。 二、提出了针对BERT模型的微调前截断方法,并设计实验充分验证了其可行性。现有针对BERT模型的压缩方法通常仅考虑了测试阶段而忽视了微调阶段的资源开销。但事实上,微调是将BERT模型应用到具体下游任务的首要步骤,其资源开销往往远甚于测试,所以是决定模型能否广泛应用的关键因素。因此,本文提出在微调前截断BERT以缩小模型体量,同时减小微调和测试两阶段的资源开销,弥补了现有研究仅考虑测试开销的不足。 三、针对文本二分类任务,提出微调前自适应截断BERT模型的方法,定义了确定微调前截断位置的可分性度量指标。现有模型压缩方法过于复杂,难于实现,且大多忽视了任务本身特征对模型压缩带来的影响。本文在进行模型压缩过程中将任务的难易程度考虑在内,根据样本集合的可分性理论设计了确定模型截断位置的参考指标,实现根据任务特征自适应的对模型进行截断。 四、针对文本多分类任务,定义了微调前确定模型截断位置的可分性度量指标。通过分析文本二分类任务与多分类任务之间的关联关系,本文对适用于文本二分类的模型截断方法和可分性度量指标进行改进和拓展,使其能够很好的适用多分类任务上的模型压缩问题。 综上,本文以中、英文文本分类任务为研究对象,选取了11个常用的分类数据集(包括中、英文单、双输入二分类数据集各2个,中、英文单输入多分类数据集1个,中文双输入数据集1个),以基于BERT预训练语言模型构建的文本分类模型作为目标模型,探索微调前自适应截断模型的压缩方法。本文的研究对于文本分类任务相关神经网络模型的压缩研究有着推动作用,对其它更复杂文本分析任务的模型压缩工作也有借鉴意义。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。