我正在开展一个项目,我正在尝试做一些研究。我希望能够使用特定的语料库找到单词的搭配。我希望有一些我可以用来做这种工作的SDK。我看了看这个选项:
https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/trees/CollocationFinder.html
并找到了一个名为CollocationFinder的类,但找不到太多文档或知道是否有指定语料库的方法。
我还发现了一个名为JXtract(http://definingterms.com/projects/Champollion/#smadja93)的项目,但它看起来已经很老了,而且作者声称肯定会有bug。
有人知道我可以用来开发软件的好库吗?是什么允许选择语料库,以及可能选择不同的方法来确定搭配?
答案 0 :(得分:0)
Stanford CoreNLP中CollocationFinder类的目的是将单词合并为一个并置令牌。可以从WordNet中找到搭配,因此这个类不会帮助从语料库中自动进行搭配提取。
答案 1 :(得分:0)
由于您未指定它必须是Java解决方案,因此a collocation(and a concordancer)app built using NLTK (Python)。它符合您的要求(一个好的库[用于NLP],允许[s]选择一个语料库,您可以自然地编码任何不同的方法来确定搭配 - NLTK中的TK代表"工具包&#34 ;!)