我正在使用Cat
Dog
(homepage | GitHub),我只想查看Nexus factory images页面的urlwatch
部分。但是,我不知道如何才能做到这一点。用于过滤结果的example hooks.py file对我来说还不太清楚;我不知道如何使用它/如何将其应用于页面的该部分。
如何只查看Nexus factory images页面的"hammerhead" for Nexus 5 (GSM/LTE)
部分?
答案 0 :(得分:2)
你可能想尝试将你从页面获得的html提供给某种XPath解析器,或者我的偏好BeautifulSoup:
from bs4 import BeautifulSoup
def filter(url, data):
if url == "https://developers.google.com/android/nexus/images":
soup = BeautifulSoup(data)
return soup.select("h2#hammerhead ~ table")[0]
soup.select
行查找带有id
hammerhead
的h2元素,然后返回其后面的所有table
元素的列表。第一个是你想要的,因此是[0]
。