实施抽样& Hadoop中的数据挖掘算法

时间:2012-06-25 12:40:30

标签: java algorithm hadoop data-mining sampling

当前的实现涉及大输入事务文件的采样,然后最终应用' FP增长算法'这个采样数据用于数据挖掘。但是,它有其局限性,我想在更大范围内实现这一点。 根据以下采样方法(基于用户响应)对事务文件进行采样:

  1. 随机抽样
  2. 系统抽样
  3. 分层抽样
  4. 群集抽样
  5. 从Sampled Transactions(FAST)算法中查找关联。
  6. 目标是在Hadoop中实现并行处理并支持大型输入数据文件。如何在Hadoop或任何其他开源分布式处理框架中实现这一点?

1 个答案:

答案 0 :(得分:1)

这里的问题主要是算法而不是技术。我们需要找到算法的并行方法,然后将其转换为MapReduce范例。只有这样,我们才能使用Hadoop并行运行该过程。
我认为对于您的算法,相关的并行版本是:http://infolab.stanford.edu/~echang/recsys08-69.pdf