使用Mallet和MaxEntropy进行分类

时间:2017-01-01 11:54:32

标签: classification doc mallet

我想在Eclipse中使用mallet对docs(wsdl文件)进行预处理。我想生成特征向量并使用mallet和MaxEntropy执行分类。我是新手使用木槌,任何人都可以在这方面指导我。

由于

1 个答案:

答案 0 :(得分:1)

如果您指的是Web服务描述语言,我不知道为这些文档设计的任何特定工作流程或包。我怀疑您可能想要创建一组功能,这些功能结合了文本(来自Web服务描述)和更多“分类”功能,如URL或URL模式。

我解决此问题的方法是创建一个单独的包,该包读取WSDL文件并以Mallet期望的格式写出文件。这个适配器可以用你最熟悉的语言编写。它将读取所有文件,为每个文件获取解析的XML树,提取文本和某些其他功能,并以Mallet的首选制表符分隔,每行一个文档格式输出文件。