我正在尝试使用LibShortText
,但我并不完全理解它是如何运作的。
从README
开始,看起来它的功能是用于文本文件。但是,我需要以LibSVM格式对已经的文件进行分类,所以我认为像text-train.py
和text-predict.py
这样的函数不会...
README
还声明:
If a preprocessor directory is given instead, then it is assumed that the
training data is already in LIBSVM format.
有人知道preprocessor directory
是什么......?
从LibShortText documentations,我看到有一个“中级分类模式 - 学习者”可以处理像我这样的文件。但是,我不明白它是如何工作的!它没有LIBSVM所具有的所有参数,例如......我还没有成功找到如何保存或理解结果(权重和预测在哪里?)。
如果有人可以解释这句话我是如何真的欣赏它(我现在已经测试了几个小时了)...谢谢!
答案 0 :(得分:1)
根据文档(http://www.csie.ntu.edu.tw/~cjlin/libshorttext/doc/libshorttext.html#quick-start),您可以使用-A选项附加.svm文件。
但是如果您已经获得了libsvm格式的数据,则可以直接使用liblinear(libshorttext下的库)。
如果你有libshorttext的发行版,你已经有了liblinear。你可以编译并运行cd'ing(从你有libshorttext解压缩的地方),如下所示:
$ cd libshorttext/classifier/learner/liblinear
$ make
$ ./train train_file.svm
$ ./predict test_file.svm model_file output_file
这里的参考是liblinear README:https://github.com/ninjin/liblinear/blob/master/README,我发现它非常方便。