beautifulsoup - 循环通过url偏移

时间:2014-02-27 21:17:31

标签: python beautifulsoup

我正试图从一个大约有100页的网站上刮掉一些表,每个页面在链接的最后都有一个偏移,所以我的第一个链接以offset = 0结束,下一个是offset = 100 ,然后偏移= 200,因为你看它增加了100。

使用我的代码我只能得到第一页的输出,你能帮助我如何迭代偏移并将所有内容输出到同一个文件?

Python 2.7.5+ [GCC 4.8.1]

Beautifulsoup 3.2.1

import urllib2
from bs4 import BeautifulSoup

for x in range(500,800,100):
        numb = str(x)
        url = "http://www.mylink.com/blabla.offset="+numb
        page = urllib2.urlopen(url).read()
        soup = BeautifulSoup(page)

        with open('output.txt', 'w') as f:
                for tr in soup.find_all('tr')[1:]:
                    tds = tr.find_all('td')
                    f.write( "%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s$\n" % \
                          (tds[0].text, tds[1].text, tds[2].text, tds[3].text, tds[4].text, tds[5].text, tds[6].text, tds[7].text, tds[8].text, tds[9].text, tds[10].text, tds[11].text, tds[12].text, tds[13].text, tds[14].text))

0 个答案:

没有答案