NLP从给定文本中发现城市,州和名称

时间:2014-01-05 07:20:07

标签: java nlp opennlp

我有一个文本文件,它是使用OCR(光学字符识别)从图像生成的。该文件包含信息记录,其中每条记录的一部分包含客户名称城市和州的格式文本。文本样本位于

之下

Benjamin Meeks Decatur,GA

有时,文本可能会分成多行。文本将始终按给定顺序排列。我有一个城市和州的静态列表,但仍然有一些记录和状态可以从列表中出来。州与城市之间的逗号可能存在​​也可能不存在。城市和州文本主要包含美国,英国,加拿大,澳大利亚等。

从我的朋友那里我开始了解自然语言处理可以解决从给定输入中挖掘文本类别的问题。我是NLP的诺布,所以我在这里建议我可以申请提取城市,州和名称的NLP技术是什么。

我已经google了一个openNLP库看起来像apache openNLP似乎是一个很好的库。

感谢。

1 个答案:

答案 0 :(得分:2)

如果你想从NLP开始,我认为OpenNLP是一个不错的选择,另一个Java选项可能是StandfordNLP。如果您熟悉Python,那么请使用NLTK。

关于您的问题我认为命名实体识别是您应该寻找的。如果首先你学习NLP的基础然后使用这个特定的“tecnique”,那就更好了。 但是here您已经可以找到关于此的OpenNLP章节;正如您所看到的,您还可以使用机器学习技术训练您的“代码”,以便准确识别您的需求 对于OpenNLP,已经存在一些经过培训的位置,组织,人员模型。 (here