使用urlwatch观看页面的一部分

时间:2015-04-27 14:32:23

标签: python

我正在使用Cat Dog homepage | GitHub),我只想查看Nexus factory images页面的urlwatch部分。但是,我不知道如何才能做到这一点。用于过滤结果的example hooks.py file对我来说还不太清楚;我不知道如何使用它/如何将其应用于页面的该部分。

如何只查看Nexus factory images页面的"hammerhead" for Nexus 5 (GSM/LTE)部分?

1 个答案:

答案 0 :(得分:2)

你可能想尝试将你从页面获得的html提供给某种XPath解析器,或者我的偏好BeautifulSoup

from bs4 import BeautifulSoup

def filter(url, data):
    if url == "https://developers.google.com/android/nexus/images":
        soup = BeautifulSoup(data)
        return soup.select("h2#hammerhead ~ table")[0]

soup.select行查找带有id hammerhead的h2元素,然后返回其后面的所有table元素的列表。第一个是你想要的,因此是[0]