从特定位置刮蟒蛇

时间:2017-05-14 17:03:16

标签: python web web-crawler screen-scraping

我正在尝试从网站上抓取一些信息,请记住我是python的新手。

我目前的代码是

from lxml import html
import requests

page1 = requests.get('snip')
page2 = requests.get('snip')
page3 = requests.get('snip')
page4 = requests.get('snip')

tree = html.fromstring(page.content)

我需要从这里提取数字(目前为37):

<div class='count col-xs-4'>
<p><strong>37</strong> <br class='hidden-md hidden-lg'/>followers</p>
</div>

但是我不太清楚该怎么做。任何人都可以帮我这个吗?

2 个答案:

答案 0 :(得分:0)

您可以在众多其他工具中使用BeautifulSoup(bs4)来实现此目的。试试这个,因为它很容易遵循教程。如果你还在迷路,我可以帮助你更多。

答案 1 :(得分:0)

您可以使用Xpath获取信息。以下应该有效。

tree =  html.fromstring(page1.text)   
number = tree.xpath('//*[@class="count col-xs-4"]/p/strong/text()')