Question

我正试图抓一个似乎动态下载一些数据到网站的网站。我想刮掉。

网站以：

开头

<td class="border_TopRight border_Left">
    Text - "TEST_NAME
<td class="border_TopRight">
    Text - TEST_NAME_1
<td class="border_TopRight">
    Text - TEST_NAME_2
<td class="apple dataCell border_TopRight font_green" id="Number of Apples" style="color: #333333; background-color: rgb(255, 255, 255);" rel="Apples ">
    Text - '-'

然后网站将加载信息为：

<td class="border_TopRight border_Left">
        Text - "TEST_NAME
    <td class="border_TopRight">
        Text - TEST_NAME_1
    <td class="border_TopRight">
        Text - TEST_NAME_2
    <td class="apple dataCell border_TopRight font_green" id="Number of Apples" style="color: #333333; background-color: rgb(255, 255, 255);" rel="Apples ">
        Text - '999999.99'

我正在尝试使用Python请求和流来加载后获取数据，但我没有取得多大成功。

import requests
from bs4 import BeautifulSoup

tarball_url = xxxxx
r = requests.get(tarball_url, stream=True)

soup = BeautifulSoup(r)

td = soup.findAll('td')

for line in td:
    print(str(line.get_text()))

返回：

TEST_NAME
TEST_NAME_1
TEST_NAME_2
 -

在网站更新datacell后，我有没有办法抓取数据？通常在几秒钟内就会非常快。

Answer 1

我找到以下链接。这对我来说似乎很有用。

http://koaning.github.io/html/scapingdynamicwebsites.html

Python请求流

1 个答案: