我正在使用apache nutch在rosettacode上执行爬网。我不想浏览整个网站,我只想抓取选定的主题(例如http://www.rosettacode.org/mw/index.php?title=Special%3ASearch&search=Optimization+algorithms&go=Go)。但我无法执行爬行,它给我一个错误说“没有提取的网址..检查你的种子列表和网址过滤器”。任何人都可以帮我解决这个问题吗?
答案 0 :(得分:1)
你提供的网址实际上是在注入阶段拒绝。
您必须指定接受regex-urlfilter.txt中的网址的正则表达式,或将其保留为-[?*!@=]
,这意味着它接受所有网址。
AVAssetExportSession
以上模式拒绝您的网址。因为,它包含?和 =