有谁知道一个好的快速和脏文本/语法解析器?

时间:2010-11-29 17:34:45

标签: parsing nlp pos-tagger

我有一个“疯狂的lib”场景,我想

a)确定句子中每个(或大多数)单词的词性 b)让用户选择这些单词的替代方案 - 或者用等效的单词替换它们

我看了斯坦福解析器,但它有点慢......有什么建议吗?

2 个答案:

答案 0 :(得分:3)

使用POS标记

如果您只是使用词性(POS)标签而不是解析树,则实际上不需要使用解析器。相反,您可以使用独立的POS标记器。

POS标记比短语结构解析更快 。在Xeon E5520上,Stanford POS tagger可以在3秒内标记1700个句子,而同一数据需要大约10分钟才能使用Stanford ParserCer et al. 2010)进行解析。

有一个相当全面的其他POS标记器列表here

答案 1 :(得分:0)

对于工具包方法,有NLTK工具包。它是在Python中,所以类似的速度可能不是你想要的;但作为一个用于教学的工具包,可以实现许多不同的方法。 IE浏览器。即使基础语言可能不是最快的,也可以很容易地实现快速解析器/标记器。