出于某种原因,我需要在特定网站中找到包含menu
的每个网址。
喜欢这个http://www.ipeen.com.tw/shop/607566/menu
问题在于,并非每家餐馆都包含menus
,如果我尝试将requests.get
发送到http://www.ipeen.com.tw/shop/10000,则会抛出
HTTPConnectionPool(host='www.ipeen.com.tw', port=80): Read timed out. (read timeout=1)
所以,我认为我需要先找到每家餐馆,然后向shop/xxxxxx/menu
发送请求以找出它是否有菜单。
有更好的方法可以找到答案吗?我已经尝试过谷歌搜索等 site:www.ipeen.com.tw/shop inurl:menu,但抓取谷歌搜索结果更难,它可能会阻止我。