Beautifulsoup刮书目录

时间:2011-11-01 10:53:06

标签: screen-scraping beautifulsoup

for i in range(1,1000000):

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i))
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i)
    soup = BeautifulSoup(page) #retreive

    books = soup.findAll("div",{"id":"Title"}) #process

我需要浏览发布商的整个目录。 我需要检索:

  • 图书图片
  • 标题
  • 出版商
  • pubdate的
  • PriceCurrency
  • 约260 | 185
  • 说明(在ajax标签内)

1 个答案:

答案 0 :(得分:0)

使用XPath从这些位置提取内容