我发现python中的NLKT是通过* raw_parse *函数完成的,但我需要使用Java。我发现cleartk有一个MaltParser包装器,但没有关于它的文档。我正在寻找一个函数或项目,它首先将原始英文文本转换为MaltParser可以使用的conll文件并使用MaltParser解析它。任何帮助表示赞赏。
答案 0 :(得分:0)
文件夹 examples / apiexamples / srcex 中有MaltParser 1.7.2发行版的示例。
但是,这些示例仅显示如何在已执行标记化和pos标记之后以编程方式运行MaltParser(并且在将这些步骤的输出转换为类似CONLL的格式之后)。
由于我目前无法提供更好(更简单/更短)的替代方案,至少我可以与您分享Groovy script的链接,该链接执行标记化,词性标记(使用OpenNLP)和依赖项解析(使用MaltParser)。使用UIMA可以使这些工具互操作。如果一个人熟悉Maven,那么派生该脚本的Java版本应该非常简单。
介意,这不是最好的答案,但在这一点上可能总比没有好。
注意:我是Apache UIMA和DKPro Core(链接指向的项目)的开发人员。