用猪生成单词频率向量

时间:2014-08-16 00:02:53

标签: machine-learning apache-pig

为了应用机器学习算法,我需要创建一个单词频率向量。就像

我是:9 你:3 好的:2

我先生成一个空矢量

我:0 你:0 好:0

然后逐个浏览所有文档,计算文档中出现的每个单词键。最后,我应该为每个文档都有一个向量。

我可以生成空向量,但是如何处理每个文档并在向量中增加单词键?

0 个答案:

没有答案