java - 运行网站爬网程序

问问自己，通过网络请求访问您的网络抓取工具是否有任何优势（对您而言）。如果没有，则没有理由将其放入Web容器中。

...但我希望不断循环浏览这些网站（24小时）以确保我拥有最新内容。

我希望您得到网站所有者的同意/许可。否则，他们可能会采取技术或法律措施阻止您这样做。

正如Danny Thomas所说，您的抓取工具应实施“robots.txt”处理程序，并尊重这些文件在抓取时所说的内容。

<强>后续

由于我需要访问的网站数量，我可能不会再访问同一页面至少10-15个小时。这通常被认为是太多爬行吗？

这不是问题的正确问题。要问的正确问题是，特定网站所有者是否会认为这样做太多了。

真正了解的唯一方法是问他们。