一种基于MapReduce的并行闭频繁项集挖掘算法（论文原稿）

格式：word 上传：2025-07-21 21:43:17

源系统做为平台搭建集群，具体方案为如下使用台计算机做为节点，为核，内存，操作系统为，平台为使用台计算机做为节点，为核，内存，操作系统为片及存储。将数据集分为若干个连续的分片，每个分片分别存储在集群中的计算节点上，个节点可以存储个或多个数据分片。这个过程可以由自动完成。并行计数。并行计数是计算模型的经典用法，十分容易实现，可以使用个任务来统计中所有项的支持度，得到频繁项的集合。种基于的并行闭频繁项集挖掘算法论文原稿。已有些研究将传统算法向计算模型进行了迁移。陈光鹏等提出种基于的并行闭频繁项集挖掘算法论文原稿，进行了并行筛选。实验验证了算法在负载均衡算法加速全局结果集筛选等方面的有效性。算法持续改进可以从两个方面来考虑子搜索空间划分采用更加有效的数据结构存储，提高并行挖掘的效率从中并行筛选时进步考虑负载均衡的问题。参考文献，从图和图可以看出算法在密集数据集上的加速性比在稀疏数据集上有所提高，加速性与数据集的密集程度呈正比，与最小支持度也成正比，主要原因在于由密集数据压缩得到的具有更多的共享前缀，共享前缀越多，运用剪枝策略减去的子搜索空间也越大，对算法加速性贡献越大。数据集越密集，和之间的差值则越小，算法压缩率与最小支持度呈反比。从图和图可以看到，由于算法采用了均衡分组的策略，实现了较好的负载均衡。但在并行计算中，对算法效率有决算法在数据集最小支持度分别为上时的执行的结果集尺寸如图所示。需要设计并行的算法解决上述问题。是种简单易用的并行编程模型，由于年提出，因其自动容错负载均衡伸缩性好等优点，已有很多数据挖掘方法实现了基于计算模型的并行化，显示出这种计算模式适用于多种并行数据挖掘任务。计算模型流程图如图所示。是的个开源实现，其核心组件是个分布式文件系统速性贡献越大。数据集越密集，和之间的差值则越小，算法压缩率与最小支持度呈反比。从图和图可以看到，由于算法采用了均衡分组的策略，实现了较好的负载均衡。但在并行计算中，对算法效率有决定性影响的已不在是单个节点的计算效率，负载均衡数据量有更加显著的影响。在挖掘时虽然運用了剪枝策略，但对整个算法的效率提升作用仍是比较有限的。总结本文讨论了并行算法在搜索空间划分剪枝策略全局闭频繁检查这个关键方面的策略选择，提出了种基于种基于的并行闭频繁项集挖掘算法论文原稿及并行编程模型。自动将海量数据进行分片，分别存储集群中不同的节点上方法在存储数据分片的节点运行，通过数据本地化减少来提高运行的效率。算法在稀疏数据集上仍表现出了较好的结果压缩比例，压缩率与最小支持度呈反比。和算法在数据集最小支持度分别为上时的执行时间如图所示。和算法在数据集最小支持度分别为上时的执行的结果集尺寸如图所示。，作者單位河海大学文天学院安徽省马鞍山市。算法在稀疏数据集上仍表现出了较好的结果压缩比例，压缩率与最小支持度呈反比。和算法在数据集最小支持度分别为上时的执行时间如图所示。和压缩存储子搜索空间，在并行挖掘局部闭频繁项集的过程中使用引理策略进行剪枝，对局部挖掘结果使用引理进行校验。最后并行执行全局闭频繁项集的筛选，得到全局闭频繁项集。给定个事务数据集和最小支持度，算法主要包含个步骤，主要框架如下数据分片及存储。将数据集分为若干个连续的分片，每个分片分别存储在集群中的计算节点上，个节点可以存储个或多个数据分片。这个过程可以由自动完成。并行计数。并行计数是,陈光鹏，杨育彬，高阳等种基于的频繁闭项集挖掘算法模式识别与人工智能，计算模型的并行算法，算法基于模式增长方法的基本思想和搜索空间划分策略，采用压缩存储子搜索空间，在并行挖掘局部闭频繁项集的过程中进行了剪枝，对局部挖掘结果进行了并行筛选。实验验证了算法在负载均衡算法加速全局结果集筛选等方面的有效性。算法持续改进可以从两个方面来考虑子搜索空间划分采用更加有效的数据结构存储，提高并行挖掘的效率从中并行筛选时进步考虑负载均衡的问题。参考文献，计算模型的经典用法，十分容易实现，可以使用个任务来统计中所有项的支持度，得到频繁项的集合。种基于的并行闭频繁项集挖掘算法论文原稿。从图和图可以看出算法在密集数据集上的加速性比在稀疏数据集上有所提高，加速性与数据集的密集程度呈正比，与最小支持度也成正比，主要原因在于由密集数据压缩得到的具有更多的共享前缀，共享前缀越多，运用剪枝策略减去的子搜索空间也越大，对算法种基于的并行闭频繁项集挖掘算法论文原稿任务的数据量进步提升了上述算法的性能。等提出的基于的算法基于算法的基本思想，通过多次迭代产生长度的等价类最小闭项集及它们的闭包。现有算法主要是将的经典算法向计算模型进行了迁移，没有从并行计算的负载均衡降低数据量等重要方面考虑并行化中关键问题的策略选择问题。提出算法本文提出的算法基于模式增长方法的基本思想和搜索空间划分策略，算法使用，平台为。集群计算机之间使用百兆以太网相互连接。为了适应实验数据集尺寸较小，提高并行化程序以优化集群的性能，实验环境将文件块的大小设置为以增加任务数将任务数设置为以充分利用每个计算节点的计算能力。使用语言编写和算法，比较两个算法的效率及结果压缩率。使用的实验数据集特征如表所示。是来自于的真实数据集，是个非常稀疏的数据集是了种基于的并行算法，实现了经典算法算法的并行化。它的设计思想和基于的算法十分相似，通过个任务完成并行挖掘。文献通过减少第个任务的数据量进步提升了上述算法的性能。等提出的基于的算法基于算法的基本思想，通过多次迭代产生长度的等价类最小闭项集及它们的闭包。现有算法主要是将的经典算法向，作者單位河海大学文天学院安徽省马鞍山市。提出算法本文提出的算法基于模式增长方法的基本思想和搜索空间划分策略，算法使用压缩存储子搜索空间，在并行挖掘局部闭频繁项集的过程中使用引理策略进行剪枝，对局部挖掘结果使用引理进行校验。最后并行执行全局闭频繁项集的筛选，得到全局闭频繁项集。给定个事务数据集和最小支持度，算法主要包含个步骤，主要框架如下数据分陈光鹏，杨育彬，高阳等种基于的频繁闭项集挖掘算法模式识别与人工智能决定性影响的已不在是单个节点的计算效率，负载均衡数据量有更加显著的影响。在挖掘时虽然運用了剪枝策略，但对整个算法的效率提升作用仍是比较有限的。总结本文讨论了并行算法在搜索空间划分剪枝策略全局闭频繁检查这个关键方面的策略选择，提出了种基于计算模型的并行算法，算法基于模式增长方法的基本思想和搜索空间划分策略，采用压缩存储子搜索空间，在并行挖掘局部闭频繁项集的过程中进行了剪枝，对局部挖掘结果

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。