Nutch的HTTPS抓取问题

时间:2014-12-04 15:22:26

标签: ssl web-crawler nutch

他想要使用带有java7的nutch 1.9来抓取https网站

在seed.txt中

https://site.com

在regex-urlfilter.txt

+^https://([a-z0-9]*\.)*site.com/

但是当使用bin/crawl ...运行抓取进程时,我收到了 javax.net.ssl.SSLProtocolException:handshake alert:unrecognized_name

1 个答案:

答案 0 :(得分:2)

我获得了抓取具有默认证书的网站的解决方案,我希望这可以帮助其他人遇到这个问题。

本论坛的一些帖子提到添加参数-Djsse.enableSNIExtension=false 但是把它放在哪里? 我使用nano编辑了nucth文件,并在 NUTCH_OPTS 中添加了此参数 在nutch 1.9中,它位于第195行,现在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)

之后,抓取成功而不会破坏