Question

尝试从该域的本地网站抓取一些网址：

https://foo.foofoo.com

但是，我无法在下面的特定内容中做到这一点。因为小坚果会跳过它们，甚至会生成它们以便提取。但这并不能实现：

https://foo.foofoo.com/foo/foo/foo/foo-a-foo-foofoo-foo-foo-foofoo-foo-foofoo
https://foo.foofoo.com/foo/00550000006yDdKAAU/foofoo/foo-foo-foo-foofoo-foo-foo
https://foo.foofoo.com/foo/foo/foo/foofoo-foo-foofoo-foo-foo/foofoo-a-foo-foofoo-foofoo?foo_id=foo-fi-and-foo-fafoo-fa

仅获取诸如此类的一些网址（不是全部！只有少数！）：

https://foo.foofoo.com/en/foofoo

这是我的regex-urlfilter文件，通过该文件我只能获取英文网页：

-^(file|ftp|mailto):
-^https?://foo.foofoo.com/(de|ja|fr|es-MX|pt-BR)
+^https?://foo.foofoo.com

有什么好主意吗？

Answer 1

在为我的用例删除了一些无用的插件之后，一切恢复正常。这些插件是 nutch-extensionpoints ， parse-text 和 query（basic | site | url）。

未获取螺母网址

1 个答案: