我有一个文本文件,它是使用OCR(光学字符识别)从图像生成的。该文件包含信息记录,其中每条记录的一部分包含客户名称城市和州的格式文本。文本样本位于
之下Benjamin Meeks Decatur,GA
有时,文本可能会分成多行。文本将始终按给定顺序排列。我有一个城市和州的静态列表,但仍然有一些记录和状态可以从列表中出来。州与城市之间的逗号可能存在也可能不存在。城市和州文本主要包含美国,英国,加拿大,澳大利亚等。
从我的朋友那里我开始了解自然语言处理可以解决从给定输入中挖掘文本类别的问题。我是NLP的诺布,所以我在这里建议我可以申请提取城市,州和名称的NLP技术是什么。
我已经google了一个openNLP库看起来像apache openNLP似乎是一个很好的库。
感谢。