我试图使用以下代码从https://www.nypl.org/locations/list中删除库列表:
req = urllib2.Request('https://www.nypl.org/locations/list', headers={'User-Agent' : "Magic Browser"})
library = urllib2.urlopen( req ).read()
soup = BeautifulSoup(library)
然而,汤对象似乎并不包含所有元素,更重要的是包含列表(即tbody标签)。我是否需要进行AJAX调用以清除列表?我在这里错过了什么?
答案 0 :(得分:1)
您可以通过直接解析此应用用于加载数据的API来避免动态内容 这是端点
https://refinery.nypl.org/api/nypl/locations/v1.0/locations