他想要使用带有java7的nutch 1.9来抓取https网站
在seed.txt中
https://site.com
在regex-urlfilter.txt
中+^https://([a-z0-9]*\.)*site.com/
但是当使用bin/crawl ...
运行抓取进程时,我收到了 javax.net.ssl.SSLProtocolException:handshake alert:unrecognized_name
答案 0 :(得分:2)
我获得了抓取具有默认证书的网站的解决方案,我希望这可以帮助其他人遇到这个问题。
本论坛的一些帖子提到添加参数-Djsse.enableSNIExtension=false
但是把它放在哪里?
我使用nano编辑了nucth文件,并在 NUTCH_OPTS 中添加了此参数
在nutch 1.9中,它位于第195行,现在是
NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)
之后,抓取成功而不会破坏