Python请求流

时间:2014-11-18 16:41:03

标签: python request beautifulsoup

我正试图抓一个似乎动态下载一些数据到网站的网站。我想刮掉。

网站以:

开头
<td class="border_TopRight border_Left">
    Text - "TEST_NAME
<td class="border_TopRight">
    Text - TEST_NAME_1
<td class="border_TopRight">
    Text - TEST_NAME_2
<td class="apple dataCell border_TopRight font_green" id="Number of Apples" style="color: #333333; background-color: rgb(255, 255, 255);" rel="Apples ">
    Text - '-'

然后网站将加载信息为:

<td class="border_TopRight border_Left">
        Text - "TEST_NAME
    <td class="border_TopRight">
        Text - TEST_NAME_1
    <td class="border_TopRight">
        Text - TEST_NAME_2
    <td class="apple dataCell border_TopRight font_green" id="Number of Apples" style="color: #333333; background-color: rgb(255, 255, 255);" rel="Apples ">
        Text - '999999.99'

我正在尝试使用Python请求和流来加载后获取数据,但我没有取得多大成功。

import requests
from bs4 import BeautifulSoup

tarball_url = xxxxx
r = requests.get(tarball_url, stream=True)

soup = BeautifulSoup(r)

td = soup.findAll('td')

for line in td:
    print(str(line.get_text()))

返回:

TEST_NAME
TEST_NAME_1
TEST_NAME_2
 - 

在网站更新datacell后,我有没有办法抓取数据?通常在几秒钟内就会非常快。

1 个答案:

答案 0 :(得分:0)

我找到以下链接。这对我来说似乎很有用。

http://koaning.github.io/html/scapingdynamicwebsites.html