我正试图抓一个似乎动态下载一些数据到网站的网站。我想刮掉。
网站以:
开头<td class="border_TopRight border_Left">
Text - "TEST_NAME
<td class="border_TopRight">
Text - TEST_NAME_1
<td class="border_TopRight">
Text - TEST_NAME_2
<td class="apple dataCell border_TopRight font_green" id="Number of Apples" style="color: #333333; background-color: rgb(255, 255, 255);" rel="Apples ">
Text - '-'
然后网站将加载信息为:
<td class="border_TopRight border_Left">
Text - "TEST_NAME
<td class="border_TopRight">
Text - TEST_NAME_1
<td class="border_TopRight">
Text - TEST_NAME_2
<td class="apple dataCell border_TopRight font_green" id="Number of Apples" style="color: #333333; background-color: rgb(255, 255, 255);" rel="Apples ">
Text - '999999.99'
我正在尝试使用Python请求和流来加载后获取数据,但我没有取得多大成功。
import requests
from bs4 import BeautifulSoup
tarball_url = xxxxx
r = requests.get(tarball_url, stream=True)
soup = BeautifulSoup(r)
td = soup.findAll('td')
for line in td:
print(str(line.get_text()))
返回:
TEST_NAME
TEST_NAME_1
TEST_NAME_2
-
在网站更新datacell后,我有没有办法抓取数据?通常在几秒钟内就会非常快。