从Dataframe中的文本列中提取单词以创建单词到文档的词典

时间:2017-05-08 11:10:15

标签: java mongodb apache-spark

我可以将mongo db collection中的数据加载到spark数据帧。我已经使用了mongo spark连接器。

我现在想要提取数据框中文本字段中的单词,以便创建一个将单词映射到文档的单词字典。

因此,基本上,提取的单词应该是键,值应该是文档中的docId。

我不确定如何从数据框中的文本列中解析和提取单词,以便我可以相应地将它们映射到相应的文档。

映射之后,我还想减少它们,以便我将单词作为键和值作为包含单词的文档列表。

有些人可以帮助我使用方法/代码从数据框中的文本列中提取单词。

0 个答案:

没有答案