标签: robots.txt
我将要从AllRecipes.co.uk抓取信息,我只是想在开始之前帮助您了解robots.txt文件。
我的目的是抓取食谱信息-ID,名称,平均等级,成分,服务,NumberOfReviews和方法
此外,我还将解析评论信息-评分,用户和用户ID
我只是想检查我是否仍然违反了robots.txt文件中的任何规则,因为我还是这个新手
import re print re.findall("<seg>(.*?)</seg>", your input)