Question

我正在使用apache nutch在rosettacode上执行爬网。我不想浏览整个网站，我只想抓取选定的主题（例如http://www.rosettacode.org/mw/index.php?title=Special%3ASearch&search=Optimization+algorithms&go=Go）。但我无法执行爬行，它给我一个错误说“没有提取的网址..检查你的种子列表和网址过滤器”。任何人都可以帮我解决这个问题吗？

Answer 1

你提供的网址实际上是在注入阶段拒绝。

您必须指定接受regex-urlfilter.txt中的网址的正则表达式，或将其保留为-[?*!@=]，这意味着它接受所有网址。

AVAssetExportSession

以上模式拒绝您的网址。因为，它包含？和 =

如何使用apache nutch抓取几个主题的数据？

1 个答案: