标签: machine-learning apache-pig
为了应用机器学习算法,我需要创建一个单词频率向量。就像
我先生成一个空矢量
我:0 你:0 好:0
然后逐个浏览所有文档,计算文档中出现的每个单词键。最后,我应该为每个文档都有一个向量。
我可以生成空向量,但是如何处理每个文档并在向量中增加单词键?