Question

我打算构建一个脚本，用于从网站上抓取数据，该数据在网址中包含不同的ID，所以我想循环遍历它。

例如，网址：http://demosite.com/posts/1 上述网址中的“1”的数量从1到2,00,000不等。所以我想运行一个python脚本，它将循环运行并从这些数字1-2,00,000之间从网站获取数据。

我使用以下代码 -

import urllib2
import re
for i in xrange(1,200000):
    req = urllib2.Request('http://demosite.com/posts/' + i,
          headers={ 'User-Agent': 'Mozilla/5.0' })
    html = urllib2.urlopen(req).read()

    print html

Answer 1

Zip是var finalList = lstFirst.Zip(lstSecond, (c1, c2) => new CarFinal() { Name = c1.Name, Model = c1.Model, Description = c2.Description, Year = c2.Year }).ToList();，i是字符串。您无法使用int连接'http://demosite.com/posts/'和字符串。将+转换为字符串（int）或使用i：

str(i)

用于在python中抓取数据的简单脚本

1 个答案: