我抓了一批15K网址并将其保存为html文件。在第一次迭代中,我获得了10980的输出。在第二次迭代中,它减少到9700.在第三次迭代中,它是11120.
所以我检查了写在文本文件中的结果(在catch块中写的提示/异常)。由于
,大多数网址都失败了的java.net.UnknownHostException
某些网址在第一次和第三次迭代中失败,但在第二次迭代中成功保存。
我在谷歌搜索论坛,在大多数情况下,给出的理由就像
抛出表示无法确定主机的IP地址。
我的问题是在第二次迭代中如何成功抓取它?
请提供一些解决方案来解决UnknownHostException或找到主机的IP地址。
注意:上述迭代是使用Executor Service使用Multithreads(300)完成的。
我试过单线程。现在,各种迭代中的输出计数没有差异。
我还在评论中使用了 -Djava.net.preferIPv4Stack = true 这个选项。
但我仍然得到 UnknownHostException 。