Question

for i in range(1,1000000):

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i))
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i)
    soup = BeautifulSoup(page) #retreive

    books = soup.findAll("div",{"id":"Title"}) #process

我需要浏览发布商的整个目录。我需要检索：

图书图片
标题
版
出版商
pubdate的
PriceCurrency
约260 | 185
说明（在ajax标签内）

Answer 1

使用XPath从这些位置提取内容

Beautifulsoup刮书目录

1 个答案: