在python中解析文本

时间:2017-02-24 19:25:00

标签: python regex parsing

我有几个文件包含作业发布的电子邮件对话。我想从其主题行中提取职位,位置和持续时间,但很难弄清楚我该如何做到这一点。 这里有几个主题行的例子。

  

主题:寻找软件开发人员:Cranbury New Jersey - 12 MOnths Contract

     

主题:全职华沙IN数学老师的直接要求。

     

主题:AP FICO顾问-----北卡罗来纳州

2 个答案:

答案 0 :(得分:2)

如果数据集没有像您发布的示例那样的明确格式,则无法使用正则表达式将数据集准确地过滤到所需的类别

答案 1 :(得分:1)

您需要深入了解并找出如何分析您要查找的关键字的主题行。您需要交叉引用位置名称,职位名称并过滤掉绒毛字和字符。

如果你真的想进入这个,你应该调查Deep Machine LearningNeural Networks来处理这些主题行以提取相关信息。只有当您能够执行此操作(或类似)时,您才能对电子邮件进行分类并突出显示这些关键字以进行排序/组织。

这不是一个简单的过程,如果你追求它,祝你好运!