我想根据链接到HTML网页的网站抓取网站。
然而,我担心结束各种“不那么儿童友好的网站”。有没有人知道黑名单网站的列表我可以开始实现我自己的过滤器以远离(至少某些)着色器位置?
谢谢!
答案 0 :(得分:3)
图卢兹大学为不同类型的维护良好的黑名单提供了非常好的资源。你可以找到它们here。
另一种方法是使用专门的抓取工具,让分类器确定某个给定页面是否值得为您感兴趣的特定域抓取。
答案 1 :(得分:0)
稍微不同的方法是使用opendns familyshied并在运行爬网程序的服务器上配置DNS。然后,您可以在抓取工具中使用自定义过滤器来检测由opendns过滤的页面,并防止它们被编入索引或存储。
你不必处理和管理黑名单,而是让opendns为你做这件事。