Question

目前我正在开发一个 Python 程序，使用 Python 脚本从 sec.gov 中提取 EDGAR 数据。我试图从中提取数据的页面是 this。

在我看来，此页面上的数据是静态的，这就是我尝试使用 Beautiful Soup 和 Python Requests 模块来提取数据的原因。这是我的脚本：

import requests
from bs4 import BeautifulSoup
from faker import Faker

fake = Faker()
dataLink = "https://www.sec.gov/Archives/edgar/data/1596783/000159678320000155/0001596783-20-000155.txt"
resp = requests.get(url=dataLink, verify=False, headers={"User-Agent":fake.chrome()})
soup = BeautifulSoup(response.content, 'xml')
print(soup.prettify())

当我运行此代码时，返回的数据甚至与我从中提取数据的网页上列出的数据的条目数不相同。有谁知道为什么我的 HTTP 请求返回的数据比我检查网页时显示的数据少得多？

Python 请求不返回整页内容

0 个答案: