Question

我使用Jsoup.connect（）
从网站上获取
当我们使用Jsoup或任何其他技术访问我们的请求时   代码和平，这是有效还是合法？

我们尝试使用Jsoup.connect（“url”）或其他访问的URL 技术。以便网址所有者可以对我们提出指控，以免违反任何规定一种IT术语。

访问任何类型的网络，例如私人网络，社交网络，这是否合法 PSU网站，政府网络，我们的代码和平，并使用他们的反应过度开发

感谢。

Answer 1

在抓取网站之前，您必须先阅读网站的robots.txt。对于您可能阅读的内容有书面许可，不应该

关于/robots.txt

网站所有者使用/robots.txt文件提供有关的说明他们的网站到网络机器人;这被称为机器人排除协议。

它的工作原理如下：机器人想要访问网站网址，比如http://www.example.com/welcome.html。在此之前，它首先检查http://www.example.com/robots.txt，然后找到：

User-agent: *
Disallow: /

“用户代理：*”表示此部分适用于所有机器人 “Disallow：/”告诉机器人它不应该访问任何页面该网站。

使用/robots.txt时有两个重要注意事项：

有关/robots.txt的更多信息，请访问/robots.txt