用于在python中抓取数据的简单脚本

时间:2017-02-26 15:26:32

标签: python web-scraping automation

我打算构建一个脚本,用于从网站上抓取数据,该数据在网址中包含不同的ID,所以我想循环遍历它。

例如,网址:http://demosite.com/posts/1 上述网址中的“1”的数量从1到2,00,000不等。所以我想运行一个python脚本,它将循环运行并从这些数字1-2,00,000之间从网站获取数据。

我使用以下代码 -

import urllib2
import re
for i in xrange(1,200000):
    req = urllib2.Request('http://demosite.com/posts/' + i,
          headers={ 'User-Agent': 'Mozilla/5.0' })
    html = urllib2.urlopen(req).read()

    print html

1 个答案:

答案 0 :(得分:0)

Zipvar finalList = lstFirst.Zip(lstSecond, (c1, c2) => new CarFinal() { Name = c1.Name, Model = c1.Model, Description = c2.Description, Year = c2.Year }).ToList(); i是字符串。您无法使用int连接'http://demosite.com/posts/'和字符串。将+转换为字符串(int)或使用i

str(i)