Mining Frequent Item in Distributed Data Stream

XIAO Ying,MAO Guo-jun
DOI: https://doi.org/10.3969/j.issn.2095-6835.2010.30.051
2010-01-01
Abstract:在数据流挖掘领域中,频繁项集的挖掘是基础性的,也是比较关键的问题,但是现在的算法大多都是基于在单数据流中挖掘频繁项集,传统在单数据流上挖掘频繁项集的算法有Apriori算法,由于挖掘多个数据流上的频繁项集存在数据和模式冗余问题,对算法的时间和空间效率都具有很大的挑战性。本文基于Apriori算法和多线程并发技术的思想改进了Apriori算法生成在分布式数据流上挖掘频繁项算法A-Apriori,它采用逐层迭代和并发技术来解决多个数据流同时到来频繁项的挖掘问题。实验表明,该算法在保证挖掘精度的前提下,可以比其它在分布式数据流中挖掘频繁项的算法获得更好的效率。
What problem does this paper attempt to address?