我一直致力于使用运行Map / Reduce作业的Mahout提供的SparseVectorsFromSequenceFiles
,RowIdJob
和RowSimilarityJob
Hadoop作业执行潜在语义分析。我一直试图找到在内存中运行的这些功能的等效实现,无论是在单个线程中,还是最好在多个线程中。
有这样的事吗?
答案 0 :(得分:2)
我不知道,不这么认为,但写作会很简单。您只需打开SequenceFile.Reader
并为每条记录获取值Vector
中的Writable
并执行您想要的操作它可能是10行代码而不值得使用工具。