使用python从html文件中提取邮政编码

时间:2019-04-26 22:51:43

标签: python

我想使用python从sec 10k html文件中提取我们的邮政编码

我已经尝试过此代码

import re
s="https://www.sec.gov/Archives/edgar/data/20/000095012310024631/c97665e10vk.htm"

zipcode = re.findall(r'\b[0-9]{5}(?:-[0-9]{4})?\b', s)
print zipcode

输出为[] 而我需要08071-0888

2 个答案:

答案 0 :(得分:0)

尝试这个。首先,使用BeautifulSoup抓取html。在html中找到所有td标签。然后,使用regex提取邮政编码。

from bs4 import BeautifulSoup
import requests, re

url = "https://www.sec.gov/Archives/edgar/data/20/000095012310024631/c97665e10vk.htm"

page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")

for s in soup.find_all("td", attrs={"align":"center"}):
    zipcode = re.findall("(\d{5}-\d{4})",str(s)) # you can also use your regex if you want
    if zipcode != []:
        print (zipcode)

输出:

['08071-0888']

答案 1 :(得分:0)

[感谢您的帮助,我必须从文件夹中的文件数中提取邮政编码和城市信息,我的代码如下所示,但是会根据您的正则表达式进行更改。接下来是提取城市信息并将其保存到csv文件1