无监督命名实体识别(NER),带有用于Java中交联建议的自定义控制词汇表

时间:2011-10-05 15:02:40

标签: java information-retrieval text-mining named-entity-recognition

我正在寻找一个可以使用自定义控制词汇表进行命名实体识别(NER)的Java库,而不需要先标记训练数据。我在SE上搜索了一些,但大多数问题都是非特定的。

考虑以下用例:

  • 编辑正在CMS中输入文章(约500字)。
  • 文本可能包含对特定域的实体的引用(以纯文本形式)。例如:
    • 兴趣点的名称,如酒吧,餐馆,以及社区等。
  • 存在这些实体的受控词汇表(约5000个实体)。
    • 我想象一个实体是词汇中的一个元组
  • 完成文本后,用户应该能够保存文档。
  • 这会触发工作流程,通过与实体名称进行比较,针对词汇表扫描文本。它不需要100%匹配:Jarao-winkler上的97%或者其他(我不熟悉algo的NER使用的)可能就足够了,我需要这个是可配置的。
  • 点击返回到控制器服务器端。这反过来将JSON返回给包含实体的客户端,这些实体表示为编辑器的建议交叉。

理想情况下,我正在寻找一个项目,该项目使用NRE来建议CMS环境中的交联以便搭载。 (我确定wordpress的插件存在例如)不确定Java中是否存在类似的东西。

欢迎使用与受控自定义词汇表一起使用的NRE库的所有其他更一般的指针。

2 个答案:

答案 0 :(得分:3)

对于那些在未来展望这一点的人:

“近似基于字典的分块” 见:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

(网址编辑。)

答案 1 :(得分:1)

不确定这些是否有用: http://www-nlp.stanford.edu/software/CRF-NER.shtml http://cogcomp.cs.illinois.edu/page/software