Python:如何根据实体预测和分组文本?

时间:2014-08-17 18:38:52

标签: python nlp

鉴于以下文本的一些记录,您如何将文本组织到其实体定义中?例如,自动知道哪些是地址,电子邮件和电话号码,以及名称和分组,即使这些文本的出现不均匀并且并不总是保证它们将存在。这是一个棘手的问题,因为没有标签元素来隔离它们,它只是原始文本只用换行符和破折号分隔结果。我想知道如何解决这个问题,需要采用什么技术来实现这个目标。

James W.
342 Ave.
Seattle, WA
483948
483-428-1311
james@w.edu

-------------


Cecil F.
100 Ave.
San Fransico, CA
cecil@mail.com

--------------


Steve Frein
(+12) 142-2221
158 Saint St.,
Berlin, Germany

1 个答案:

答案 0 :(得分:0)

你前面有很长的路要走。首先,通过您的数据集查找每个行时间的可识别模式,并编写一个唯一的正则表达式来匹配它们。通过正则表达式集合运行您的文件,并发出任何不匹配的行。加班,你最终会确定例外情况。