我正试图从一个大约有100页的网站上刮掉一些表,每个页面在链接的最后都有一个偏移,所以我的第一个链接以offset = 0结束,下一个是offset = 100 ,然后偏移= 200,因为你看它增加了100。
使用我的代码我只能得到第一页的输出,你能帮助我如何迭代偏移并将所有内容输出到同一个文件?
Python 2.7.5+ [GCC 4.8.1]
Beautifulsoup 3.2.1
import urllib2
from bs4 import BeautifulSoup
for x in range(500,800,100):
numb = str(x)
url = "http://www.mylink.com/blabla.offset="+numb
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
with open('output.txt', 'w') as f:
for tr in soup.find_all('tr')[1:]:
tds = tr.find_all('td')
f.write( "%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s$\n" % \
(tds[0].text, tds[1].text, tds[2].text, tds[3].text, tds[4].text, tds[5].text, tds[6].text, tds[7].text, tds[8].text, tds[9].text, tds[10].text, tds[11].text, tds[12].text, tds[13].text, tds[14].text))