我想抓取一个网站,但只保存那些网页, 这就像:
A型:http://mywebsite.com/page.html
任何其他链接。 :http://mywebsite.com/a/b/或http://mywebsite.com/a/ 或者任何这样的事情都应该排队等待,但它们应该只是用来获得更多的网址,比如“A型”,但不会存储。
如何在nutch中的regex-urlfilter.txt中使用正则表达式。
或在RegexUrlNormalizer.xml
中“我认为整体爬行会是更好的选择。但我也希望在爬行时。如果URL有类型A的锚链接:http://mywebsite.com/page.html。我想存储链接A是通过这个获得的在抓取之后,我可以删除页面并只获取A型页面,我有这个,这个类型的网页是从什么特定的网页获得的。我可以配置nutch吗?,如果是,有些提示。我是需要修改源代码。在nutch中编写我自己的插件。?“
答案 0 :(得分:0)
我对nutch一无所知,但我可以帮助正则表达式。根据我上面的评论,现在我很清楚你想要匹配的内容。
从目前为止的例子中可以看出:
".*\.html" will match anything that ends ".html"
答案 1 :(得分:-1)
您希望抓取http://mywebsite.com/a/b/或http://mywebsite.com/a/并仅存储A类网址,即。 http://mywebsite.com/page.html?
目前尚不清楚存储的意思:是关于细分还是抓取? 请注意,如果您抓取这些页面以发现类型A网址,则内容将以段的形式存储。你无法摆脱这种情况。
我的建议: 抓住整个事情。稍后,通过设置正则表达式urlfilter文件并运行updatedb和updatesegs命令来删除不需要的内容。