Question

我要从一些文本文件创建一个数据集，将它们写成特征向量。

这样的事情：

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

向量的每个位置代表一个单词，分数由类似TF-IDF的东西给出。

你知道一些图书馆/工具/其他什么吗？（java更好）

Answer 1

几天后，我找到了“完美的工具”：Word Vector Tool。 http://sourceforge.net/projects/wvtool/

Answer 2

mallet。包括TF-IDF，POS，分类。

Answer 3

<强>然而

我建议您从头开始编写基本的IR系统。在引擎盖下寻找始终是一个很好的学习经历。