Question

我正试图从一个大约有100页的网站上刮掉一些表，每个页面在链接的最后都有一个偏移，所以我的第一个链接以offset = 0结束，下一个是offset = 100 ，然后偏移= 200，因为你看它增加了100。

使用我的代码我只能得到第一页的输出，你能帮助我如何迭代偏移并将所有内容输出到同一个文件？

Python 2.7.5+ [GCC 4.8.1]

Beautifulsoup 3.2.1

import urllib2
from bs4 import BeautifulSoup

for x in range(500,800,100):
        numb = str(x)
        url = "http://www.mylink.com/blabla.offset="+numb
        page = urllib2.urlopen(url).read()
        soup = BeautifulSoup(page)

        with open('output.txt', 'w') as f:
                for tr in soup.find_all('tr')[1:]:
                    tds = tr.find_all('td')
                    f.write( "%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s$\n" % \
                          (tds[0].text, tds[1].text, tds[2].text, tds[3].text, tds[4].text, tds[5].text, tds[6].text, tds[7].text, tds[8].text, tds[9].text, tds[10].text, tds[11].text, tds[12].text, tds[13].text, tds[14].text))

beautifulsoup - 循环通过url偏移

0 个答案: