Python从网站上查找特定网址

时间:2016-07-26 15:13:18

标签: python request web-crawler

出于某种原因,我需要在特定网站中找到包含menu的每个网址。

喜欢这个http://www.ipeen.com.tw/shop/607566/menu

问题在于,并非每家餐馆都包含menus,如果我尝试将requests.get发送到http://www.ipeen.com.tw/shop/10000,则会抛出

HTTPConnectionPool(host='www.ipeen.com.tw', port=80): Read timed out. (read timeout=1)

所以,我认为我需要先找到每家餐馆,然后向shop/xxxxxx/menu发送请求以找出它是否有菜单。

有更好的方法可以找到答案吗?我已经尝试过谷歌搜索等 site:www.ipeen.com.tw/shop inurl:menu,但抓取谷歌搜索结果更难,它可能会阻止我。

0 个答案:

没有答案