我打算构建一个脚本,用于从网站上抓取数据,该数据在网址中包含不同的ID,所以我想循环遍历它。
例如,网址:http://demosite.com/posts/1 上述网址中的“1”的数量从1到2,00,000不等。所以我想运行一个python脚本,它将循环运行并从这些数字1-2,00,000之间从网站获取数据。
我使用以下代码 -
import urllib2
import re
for i in xrange(1,200000):
req = urllib2.Request('http://demosite.com/posts/' + i,
headers={ 'User-Agent': 'Mozilla/5.0' })
html = urllib2.urlopen(req).read()
print html
答案 0 :(得分:0)
Zip
是var finalList = lstFirst.Zip(lstSecond, (c1, c2) => new CarFinal()
{
Name = c1.Name,
Model = c1.Model,
Description = c2.Description,
Year = c2.Year
}).ToList();
,i
是字符串。您无法使用int
连接'http://demosite.com/posts/'
和字符串。将+
转换为字符串(int
)或使用i
:
str(i)