我要从一些文本文件创建一个数据集,将它们写成特征向量。
这样的事情:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
向量的每个位置代表一个单词,分数由类似TF-IDF的东西给出。
你知道一些图书馆/工具/其他什么吗? (java更好)
答案 0 :(得分:2)
几天后,我找到了“完美的工具”:Word Vector Tool。 http://sourceforge.net/projects/wvtool/
答案 1 :(得分:0)
mallet。包括TF-IDF,POS,分类。
答案 2 :(得分:0)