尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 生物信息学是一门信息科学与生物学的交叉学科,主题是研究如何深入利用数学方法研究生物问题。除此之外,生物信息学的飞速发展也离不开计算机领域的技术进步。生物信息学的终极目标是揭示高通量、高复杂度的生物数据背后蕴含的生物学规律。特别地,... 展开 生物信息学是一门信息科学与生物学的交叉学科,主题是研究如何深入利用数学方法研究生物问题。除此之外,生物信息学的飞速发展也离不开计算机领域的技术进步。生物信息学的终极目标是揭示高通量、高复杂度的生物数据背后蕴含的生物学规律。特别地,在生物学和医学应用中,探索基因转录表达机制的秘密一直以来都是科学家研究的重点。深入研究转录调控机制对于人类治疗遗传疾病、发展基因工程有着重大意义。 DNA双螺旋结构的发现使人类开始从分子层面探索遗传机制。之后,伴随着计算机科技的进步,人类对遗传物质和遗传机制的认识取得了突飞猛进的发展。测序技术的进步有效地提高了遗传信息的测序精度,降低了实验成本。实验研究证明,转录因子通过与DNA上特定序列结合的方式控制基因表达,这些结合位点被称为转录因子结合位点。在生物信息学中,这些转录因子结合位点通常用数学模型“模体”来表示。因此,DNA模体的发现和识别对研究基因功能、探索转录调控机制至关重要。 DNA模体的发现与识别在研究转录因子结合位点的过程中起着重要作用。在过去的几十年里,已经有很多算法利用ChIP-seq数据来进行快速准确的模体发现工作。然而,利用ChIP-exo数据来进行模体发现工作的算法还比较少。ChIP-exo数据来自由ChIP-seq技术发展来的衍生技术ChIP-exo。由于ChIP-exo技术无法将ChIP信号整合到核苷酸分辨率中,因此利用ChIP-exo数据来进行转录因子结合位点识别是非常困难的。为了克服这种困难,提出了一个基于二阶加权的比对工具TESA。该框架采用了二项分布模型和带有ChIP-exo读取深度和序列数据的图搜索模型。TESA不但可以有效地测量在给定启动子序列中每个位置成为实际转录因子结合位点的可能性,而且能够预测具有统计学意义的转录因子序列。实验结果显示,TESA不仅显著提高了预测精度,而且扩展了现有方法的适用范围。将TESA应用于大肠杆菌k12基因组并且与七个现有方法进行比较,进而来评估该框架的预测性能。评估结果表明,TESA能够有效识别原核基因组中的调控模体。 除了ChIP-exo技术之外,随着揭示染色质可及性的ATAC-seq技术的逐渐普及和针对ATAC-seq特有的Tn5转座酶设计的足迹搜索工具的发展,在大规模ATAC-seq数据的染色质可及性水平上挖掘模体成为可能。ATAC-seq的模体识别依赖于足迹搜索,而足迹搜索工具产生的大量短序列对现有基于ChIP-seq的从头搜索模体算法的准确性和工作效率提出了较大的挑战。因此,提出了一种新的基于ATAC-seq数据来进行模体发现工作的算法CEMIG。该算法利用在处理大量短序列方面有优势的德布鲁因图来准确预测并找到新的模体。通过与几种广泛流行的预测算法进行对照实验,CEMIG算法被证明在预测精度和预测鲁棒性方面具有明显的优势。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。