Question

他想要使用带有java7的nutch 1.9来抓取https网站

在seed.txt中

https://site.com

在regex-urlfilter.txt

中

+^https://([a-z0-9]*\.)*site.com/

但是当使用bin/crawl ...运行抓取进程时，我收到了 javax.net.ssl.SSLProtocolException：handshake alert：unrecognized_name

Answer 1

我获得了抓取具有默认证书的网站的解决方案，我希望这可以帮助其他人遇到这个问题。

本论坛的一些帖子提到添加参数-Djsse.enableSNIExtension=false 但是把它放在哪里？我使用nano编辑了nucth文件，并在 NUTCH_OPTS 中添加了此参数在nutch 1.9中，它位于第195行，现在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)

之后，抓取成功而不会破坏