将LibShortText与LibSVM格式的文​​件一起使用

时间:2014-03-02 23:41:48

标签: machine-learning svm text-classification libshorttext

我正在尝试使用LibShortText,但我并不完全理解它是如何运作的。

README开始,看起来它的功能是用于文本文件。但是,我需要以LibSVM格式对已经的文件进行分类,所以我认为像text-train.pytext-predict.py这样的函数不会...

README还声明:

If a preprocessor directory is given instead, then it is assumed that the 
training data is already in LIBSVM format.

有人知道preprocessor directory是什么......?

LibShortText documentations,我看到有一个“中级分类模式 - 学习者”可以处理像我这样的文件。但是,我不明白它是如何工作的!它没有LIBSVM所具有的所有参数,例如......我还没有成功找到如何保存或理解结果(权重和预测在哪里?)。

如果有人可以解释这句话我是如何真的欣赏它(我现在已经测试了几个小时了)...谢谢!

1 个答案:

答案 0 :(得分:1)

根据文档(http://www.csie.ntu.edu.tw/~cjlin/libshorttext/doc/libshorttext.html#quick-start),您可以使用-A选项附加.svm文件。

但是如果您已经获得了libsvm格式的数据,则可以直接使用liblinear(libshorttext下的库)。

如果你有libshorttext的发行版,你已经有了liblinear。你可以编译并运行cd'ing(从你有libshorttext解压缩的地方),如下所示:

$ cd libshorttext/classifier/learner/liblinear $ make $ ./train train_file.svm $ ./predict test_file.svm model_file output_file

这里的参考是liblinear README:https://github.com/ninjin/liblinear/blob/master/README,我发现它非常方便。