应用错误收集

如何配置Nutch以避免抓取废话日历网页

时间：2012-05-04 19:14:42

标签： calendar nutch

我正在使用Nutch为网站编制索引。我注意到Nutch已经抓取了一些垃圾网页，例如http：// * ** * ** / category / events / 2015- 11。这个网页是关于2015年11月发生的事件。这对我来说完全是胡说八道。我想知道Nutch是否可以智能地跳过这些网页。可能有人认为我可以使用正则表达式来避免这种情况。但是，由于日历网页的命名模式并不是一直相同，因此无法为此编写完美的正则表达式。我知道Heritrix（一个Internet存档爬虫）具有避免抓取废话日历网页的功能。有人解决了这个问题吗？

1 个答案:

答案 0 :(得分：1)

除了可以执行此操作的正则表达式网址过滤之外没有其他方法。每当您看到不受欢迎的页面通过已爬网的内容时，您就可以继续向正则表达式文件中添加新模式。

Nutch如何避免CGI生成的抓取日历网页
如何配置Nutch以避免抓取废话日历网页
如何在爬行时制作Apache Nutch索引
如何抓取英文网站，避免抓取其他语言？
稍后使用Nutch重定向重定向
如何避免抓取共享磁盘而不降低它？
Apache Nutch中的爬行问题
nutch正则表达式，如何实现爬行策略
Nutch的增量爬行
如何通知Nutch避免抓取网站列表

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？