使用python正则表达式在句子中拆分不同的部分

时间:2017-02-28 18:26:47

标签: python regex

我有1,000,000个PDF文件,我想从中抓取数据并构建数据库。刮痧他们产生了一些数据:

 Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran

我如何拆分它们并拥有如下数据:

Mobile: 98-912-7990154
Home: 98-21-44157129
Email: ppouriya@yahoo.com
Address : Unit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran

1 个答案:

答案 0 :(得分:1)

所以你有一个"标记"对于分割线,例如HomeEmailAddress

如果您使用的是正则表达式,则可以找到单词的位置。

[(m.start(0), m.end(0)) for m in re.finditer(pattern, string)]

示例:

import re

data = 'Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran'
p = re.search("Home", data)

然后这将返回单词Home的位置。起始位置为p[0],因此您也可以使用此信息拆分data