所以我想自动从网页上获取一些内容,所以我收集了一个我希望从中获取的网址文件,然后使用xpath收集信息。但是,如果我在文件中有多个url,那么第一个请求返回301,如果只有一个url,那么我得到200并且find命令有效。我看了一下,但似乎没有任何东西出现。为什么会这样?
from lxml import html, etree
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
content = open(pathToURLs).readlines()
for url in content:
page = requests.get(url, headers=headers, allow_redirects=False)
tree = html.fromstring(page.content)