是否存在SparseVectorsFromSequenceFiles,RowIdJob和RowSimilarityJob作业的内存实现

时间:2012-07-02 07:52:42

标签: hadoop mahout semantic-analysis lsa latent-semantic-analysis

我一直致力于使用运行Map / Reduce作业的Mahout提供的SparseVectorsFromSequenceFilesRowIdJobRowSimilarityJob Hadoop作业执行潜在语义分析。我一直试图找到在内存中运行的这些功能的等效实现,无论是在单个线程中,还是最好在多个线程中。

有这样的事吗?

1 个答案:

答案 0 :(得分:2)

我不知道,不这么认为,但写作会很简单。您只需打开SequenceFile.Reader并为每条记录获取值Vector中的Writable并执行您想要的操作它可能是10行代码而不值得使用工具。