我正在与Weka合作,需要添加另一个目前在Weka中不支持的分类器Rocchio。我想知道有没有办法在java中为Rocchio编码并使用weka的文档预处理功能?
我已经在matlab中编写了Rocchio,所以有没有像matlab的weka.jar(java)这样的库可以简化文档预处理和文本文档中的矢量创建工作?
最初我想使用文本文档通过使用RapidMiner或Weka来进行单词向量转换,然后对这些向量进行编码和操作以对它们进行分类,但是从这些工具生成的训练数据向量和测试数据向量具有不同的词汇维度。总之,我想避免整个文档预处理过程。转换为向量,并希望利用我的时间来分类文档。