标签: java opennlp
我需要开发自定义文本分类解决方案,该解决方案不使用输入文本作为一组功能,而是使用一些派生参数,例如文本中的URL数量,表示不同语音部分的单词数量,平均字长等等(假设我们能够在给定输入文档的情况下导出一组特征)。
最初我考虑使用OpenNLP为我做分类(通过DocumentCategorizerME),但是我认为它只使用文本字符串作为可能的功能,并且不可能使用非谨慎的功能(例如代表的浮点数)平均字长。)
所以问题是:
答案 0 :(得分:1)
您应该尝试Mallet使用自己的功能训练自己的分类器。 Here是一个帮助您入门的教程。
答案 1 :(得分:0)
如果您像我一样从Google露面,您可能会注意到OpenNLP在classify方法中有一个extraInformation参数。不幸的是,它完全是not used :(
这意味着Renaud提出的建议也许是最好的选择。
或者,如果您必须使用OpenNLP,则可以通过在数据中仅包含一个新单词(包括训练和预测)来包括新功能。如:XAverageWordLengthX。我并不是说这是一个很好的解决方案,但可以帮助您的算法。