Question

我有1,000,000个PDF文件，我想从中抓取数据并构建数据库。刮痧他们产生了一些数据：

 Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran

我如何拆分它们并拥有如下数据：

Mobile: 98-912-7990154
Home: 98-21-44157129
Email: ppouriya@yahoo.com
Address : Unit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran

Answer 1

所以你有一个＆＃34;标记＆＃34;对于分割线，例如Home，Email，Address。

如果您使用的是正则表达式，则可以找到单词的位置。

[(m.start(0), m.end(0)) for m in re.finditer(pattern, string)]

示例：

import re

data = 'Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran'
p = re.search("Home", data)

然后这将返回单词Home的位置。起始位置为p[0]，因此您也可以使用此信息拆分data。

使用python正则表达式在句子中拆分不同的部分

1 个答案: