Question

我想抓取一个网站，但只保存那些网页，这就像：

任何其他链接。：http://mywebsite.com/a/b/或http://mywebsite.com/a/ 或者任何这样的事情都应该排队等待，但它们应该只是用来获得更多的网址，比如“A型”，但不会存储。

如何在nutch中的regex-urlfilter.txt中使用正则表达式。

或在RegexUrlNormalizer.xml

中

“我认为整体爬行会是更好的选择。但我也希望在爬行时。如果URL有类型A的锚链接：http://mywebsite.com/page.html。我想存储链接A是通过这个获得的在抓取之后，我可以删除页面并只获取A型页面，我有这个，这个类型的网页是从什么特定的网页获得的。我可以配置nutch吗？，如果是，有些提示。我是需要修改源代码。在nutch中编写我自己的插件。？“

Answer 1

我对nutch一无所知，但我可以帮助正则表达式。根据我上面的评论，现在我很清楚你想要匹配的内容。

从目前为止的例子中可以看出：

".*\.html" will match anything that ends ".html"

Answer 2

您希望抓取http://mywebsite.com/a/b/或http://mywebsite.com/a/并仅存储A类网址，即。 http://mywebsite.com/page.html？

目前尚不清楚存储的意思：是关于细分还是抓取？请注意，如果您抓取这些页面以发现类型A网址，则内容将以段的形式存储。你无法摆脱这种情况。

我的建议：抓住整个事情。稍后，通过设置正则表达式urlfilter文件并运行updatedb和updatesegs命令来删除不需要的内容。

Nutch使用正则表达式进行爬行

2 个答案: