自然语言的Java解析器

时间:2010-09-30 14:21:56

标签: java parsing nlp

我正在寻找一个能够满足以下条件的解析器(或生成的解析器):

1-我将提供已经是词性标记的句子。我将使用自己的标签集。 2-我没有任何统计数据。因此,如果解析器是统计的,我希望能够在没有此功能的情况下使用它。 3-轻松适应其他语言。低学习曲线

我的问题与此问题有点相似

https://stackoverflow.com/questions/88984/your-favorite-natural-language-parser

但那里没有任何令人满意的答案。感谢。

2 个答案:

答案 0 :(得分:4)

Stanford Parser(在其他SO问题上列出)将执行您列出的所有内容。

您可以提供自己的POS标签,但如果它们尚未采用该格式,则需要对Penn TreeBank集进行一些翻译。解析器要么是统计的,要么不是。如果他们不是,你需要一套语法规则。除了作为玩具之外,没有解析器真正以这种方式构建,因为它们真的是Bad™。因此,您可以依赖斯坦福分析师使用的统计数据(无需您的额外工作)。但是,这确实意味着将忽略有关您自己的标记的统计信息(如果它们不直接映射到Penn TreeBank标记)。但是,由于您无法获得有关标签的统计信息,因此应该这样做。

他们也有针对其他几种语言进行过培训的解析器,但如果您想使用他们没有的语言,您将需要自己的标记数据。无论你使用哪种解析器,都无法解决这个问题。

如果您了解Java(并且我认为您这样做),那么Stanford Parser非常简单易行。他们的邮件列表也是一个很好的资源,并且相当活跃。

答案 1 :(得分:1)

我不太清楚你想要什么,但我想到的第一件事是Mallet:

http://mallet.cs.umass.edu/index.php