Scrapy刮擦具有相同类名的内容

时间:2014-04-10 07:20:25

标签: python web-scraping scrapy

我正在使用scrapy来抓取并抓取特定网站的数据。爬行工作正常,但是在抓取具有相同类名的div的内容时我遇到了问题。例如:

<div class="same_name">
 this is the 1st div
</div>
<div class="same_name">
 this is the 2nd div
</div>
<div class="same_name">
 this is the 3rd div
</div>

我只想检索这是第一个div 。我使用的代码是:

desc = hxs.select('//div[@class = "same_name"]/text()').extract()

但它返回了我所有的内容。任何帮助都会非常有用!!

2 个答案:

答案 0 :(得分:1)

好的,这个适合我。

print desc[0]

它让我这是第一个div ,这就是我想要的。

答案 1 :(得分:0)

您可以使用BeautifulSoup。它是一个很棒的HTML解析器。

from BeautifulSoup import BeautifulSoup

html = """
<div class="same_name">
this is the 1st div
</div>
<div class="same_name">
this is the 2nd div
</div>
<div class="same_name">
this is the 3rd div
</div>
"""

soup = BeautifulSoup(html)
print soup.text

那应该做的工作。