Question

我正在尝试从网站上抓取一些信息，请记住我是python的新手。

我目前的代码是

from lxml import html
import requests

page1 = requests.get('snip')
page2 = requests.get('snip')
page3 = requests.get('snip')
page4 = requests.get('snip')

tree = html.fromstring(page.content)

我需要从这里提取数字（目前为37）：

<div class='count col-xs-4'>
<p><strong>37</strong> <br class='hidden-md hidden-lg'/>followers</p>
</div>

但是我不太清楚该怎么做。任何人都可以帮我这个吗？

Answer 1

您可以在众多其他工具中使用BeautifulSoup（bs4）来实现此目的。试试这个，因为它很容易遵循教程。如果你还在迷路，我可以帮助你更多。

Answer 2

您可以使用Xpath获取信息。以下应该有效。

tree =  html.fromstring(page1.text)   
number = tree.xpath('//*[@class="count col-xs-4"]/p/strong/text()')

从特定位置刮蟒蛇

2 个答案: