我有1,000,000个PDF文件,我想从中抓取数据并构建数据库。刮痧他们产生了一些数据:
Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran
我如何拆分它们并拥有如下数据:
Mobile: 98-912-7990154 Home: 98-21-44157129 Email: ppouriya@yahoo.com Address : Unit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran
答案 0 :(得分:1)
所以你有一个"标记"对于分割线,例如Home
,Email
,Address
。
如果您使用的是正则表达式,则可以找到单词的位置。
[(m.start(0), m.end(0)) for m in re.finditer(pattern, string)]
示例:
import re
data = 'Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran'
p = re.search("Home", data)
然后这将返回单词Home
的位置。起始位置为p[0]
,因此您也可以使用此信息拆分data
。