我对荷兰有一些疑问
当我使用维基时,我被要求编辑crawl-urlfilter.txt
+^http://([a-z0-9]*\.)*apache.org/
我被要求创建一个url文件夹和一个url列表...
我是否需要在crawl-urlfilter.txt
和网址列表中创建所有链接...
答案 0 :(得分:0)
是和否。
crawl-urlfiler.txt充当过滤器,因此只会在您的示例中抓取apache.org上的网址
url文件夹为“种子”网址提供了让抓取工具启动的位置。 因此,如果您希望抓取工具保留在一组网站中,您需要确保它们与筛选器具有正匹配...否则它将抓取整个网络。这可能意味着您必须将网站列表放在过滤器
中