创建数据集:从文本文档中提取要素(TF-IDF)

时间:2010-05-27 13:27:49

标签: java information-retrieval feature-extraction tf-idf

我要从一些文本文件创建一个数据集,将它们写成特征向量。

这样的事情:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

向量的每个位置代表一个单词,分数由类似TF-IDF的东西给出。

你知道一些图书馆/工具/其他什么吗? (java更好)

3 个答案:

答案 0 :(得分:2)

几天后,我找到了“完美的工具”:Word Vector Tool。 http://sourceforge.net/projects/wvtool/

答案 1 :(得分:0)

mallet。包括TF-IDF,POS,分类。

答案 2 :(得分:0)

当然有很多例如http://en.wikipedia.org/wiki/Lucene

<强>然而

我建议您从头开始编写基本的IR系统。在引擎盖下寻找始终是一个很好的学习经历。