java - 自然语言的Java解析器

自然语言的Java解析器

时间：2010-09-30 14:21:56

标签： java parsing nlp

我正在寻找一个能够满足以下条件的解析器（或生成的解析器）：

1-我将提供已经是词性标记的句子。我将使用自己的标签集。 2-我没有任何统计数据。因此，如果解析器是统计的，我希望能够在没有此功能的情况下使用它。 3-轻松适应其他语言。低学习曲线

我的问题与此问题有点相似

https://stackoverflow.com/questions/88984/your-favorite-natural-language-parser

但那里没有任何令人满意的答案。感谢。

2 个答案:

答案 0 :(得分：4)

Stanford Parser（在其他SO问题上列出）将执行您列出的所有内容。

您可以提供自己的POS标签，但如果它们尚未采用该格式，则需要对Penn TreeBank集进行一些翻译。解析器要么是统计的，要么不是。如果他们不是，你需要一套语法规则。除了作为玩具之外，没有解析器真正以这种方式构建，因为它们真的是Bad™。因此，您可以依赖斯坦福分析师使用的统计数据（无需您的额外工作）。但是，这确实意味着将忽略有关您自己的标记的统计信息（如果它们不直接映射到Penn TreeBank标记）。但是，由于您无法获得有关标签的统计信息，因此应该这样做。

他们也有针对其他几种语言进行过培训的解析器，但如果您想使用他们没有的语言，您将需要自己的标记数据。无论你使用哪种解析器，都无法解决这个问题。

如果您了解Java（并且我认为您这样做），那么Stanford Parser非常简单易行。他们的邮件列表也是一个很好的资源，并且相当活跃。

答案 1 :(得分：1)

我不太清楚你想要什么，但我想到的第一件事是Mallet：

http://mallet.cs.umass.edu/index.php