来自文本文件的火花中的LDA

时间:2019-11-20 20:07:36

标签: apache-spark apache-spark-sql apache-spark-mllib

我想对文本数据应用LDA算法。 spark文档page提供了执行LDA的一个很好的示例。

他们正在使用的样本数据是:

1 2 6 0 2 3 1 1 0 0 3
1 3 0 1 3 0 0 2 0 0 1
1 4 1 0 0 4 9 0 1 2 0
2 1 0 3 0 0 5 0 2 3 9
3 1 1 9 3 0 2 0 0 1 3
4 2 0 3 4 5 1 1 1 4 0
2 1 0 3 0 0 5 0 2 2 9
1 1 1 9 2 1 2 0 0 1 3
4 4 0 3 4 2 1 3 0 0 0
2 8 2 0 3 0 2 0 2 7 2
1 1 1 9 0 2 2 0 0 3 3
4 1 0 0 4 5 1 3 0 1 0

如何修改程序以在包含文本数据而不是数字的文本数据文件中运行?

我需要从文本中找到主题,例如:

Topic-0
keyword1
keyword2
keyword3

Topic-1
keyword4
keyword5
keyword6

Topic-2
keyword7
keyword8
keyword9

0 个答案:

没有答案