我正在尝试从网站上抓取一些信息,请记住我是python的新手。
我目前的代码是
from lxml import html
import requests
page1 = requests.get('snip')
page2 = requests.get('snip')
page3 = requests.get('snip')
page4 = requests.get('snip')
tree = html.fromstring(page.content)
我需要从这里提取数字(目前为37):
<div class='count col-xs-4'>
<p><strong>37</strong> <br class='hidden-md hidden-lg'/>followers</p>
</div>
但是我不太清楚该怎么做。任何人都可以帮我这个吗?
答案 0 :(得分:0)
您可以在众多其他工具中使用BeautifulSoup(bs4)来实现此目的。试试这个,因为它很容易遵循教程。如果你还在迷路,我可以帮助你更多。
答案 1 :(得分:0)
您可以使用Xpath获取信息。以下应该有效。
tree = html.fromstring(page1.text)
number = tree.xpath('//*[@class="count col-xs-4"]/p/strong/text()')