摘要 :
由工业设备产生、采集和处理的数据大多是时间序列、空间序列、高维矩阵等非结构化数据.目前单机分析环境如R、Matlab等提供了优质丰富的算法库,但随着数据生成速度和规模的不断升级,上述工具在处理大规模序列和矩阵运算时呈现低效甚至失效的现象.针对...
展开
由工业设备产生、采集和处理的数据大多是时间序列、空间序列、高维矩阵等非结构化数据.目前单机分析环境如R、Matlab等提供了优质丰富的算法库,但随着数据生成速度和规模的不断升级,上述工具在处理大规模序列和矩阵运算时呈现低效甚至失效的现象.针对可处理数据规模和算法可移植性问题,本文设计了一种大规模时间序列分析框架LTSAF(Large-scale Time Series Analysis Framework).基于分治原理,该框架创新地提出近似解方案,在无法有效获得精确解的情况下采用数据并行的计算方式求取近似解.建立了时空代价优化模型,求解得到序列的最优分段长度,以达到计算结果的有效性与计算开销的均衡.在Spark平台下实现了序列分析原型系统,采用跨语言、跨平台的方式集成了第三方算法库.实验结果表明,该系统在保证分析结果正确性的基础上,序列分析的处理速度和规模呈线性增长.同时,该系统易于集成与扩展,使数据分析人员免于算法重复开发,聚焦于分析任务本身.
收起