我正在为java寻找一个简单但“足够好”的命名实体识别库(和字典),我希望处理电子邮件和文档并提取一些“基本信息”,如: 姓名,地点,地址和日期
我一直在四处寻找,而且大多数人似乎都处于沉重的一面和完整的NLP项目中。
有什么建议吗?
答案 0 :(得分:23)
您可能希望查看my earlier answers之一的类似问题。
除此之外,大多数较轻的NER系统在很大程度上依赖于所使用的域。例如,您将找到关于生物医学NER系统的大量工具和论文。除了我以前的帖子(如果你想做NER,已经包含了我的主要建议),这里有一些你可能想要研究的工具:
还有一句话:如果没有对输入进行标记化,您将无法逃脱。自然语言的标记化略微不重要,这就是为什么我建议你使用一个既为你做这两者的工具箱。
答案 1 :(得分:1)
答案 2 :(得分:0)
您可能也想尝试Alchemy API。它类似于Open Calais。
答案 3 :(得分:0)