使用Jsoup.connect()或其他技术使用网站,但它是否合法?

时间:2017-05-13 06:33:53

标签: web-crawler jsoup

  

我使用Jsoup.connect()

从网站上获取      

当我们使用Jsoup或任何其他技术访问我们的请求时   代码和平,这是有效还是合法?

  

我们尝试使用Jsoup.connect(“url”)或其他访问的URL   技术。以便网址所有者可以对我们提出指控,以免违反任何规定   一种IT术语。

  

访问任何类型的网络,例如私人网络,社交网络,这是否合法   PSU网站,政府网络,我们的代码和平,并使用他们的反应过度开发

感谢。

1 个答案:

答案 0 :(得分:2)

在抓取网站之前,您必须先阅读网站的robots.txt。对于您可能阅读的内容有书面许可,不应该

关于/robots.txt

  

网站所有者使用/robots.txt文件提供有关的说明   他们的网站到网络机器人;这被称为机器人排除协议。

它的工作原理如下:机器人想要访问网站网址,比如http://www.example.com/welcome.html。在此之前,它首先检查http://www.example.com/robots.txt,然后找到:

User-agent: *
Disallow: /
  

“用户代理:*”表示此部分适用于所有机器人   “Disallow:/”告诉机器人它不应该访问任何页面   该网站。

使用/robots.txt时有两个重要注意事项:

  1. 机器人可以忽略你的/robots.txt。特别是在网络上扫描安全漏洞的恶意软件机器人,以及垃圾邮件发送者使用的电子邮件地址收集器都不会引起注意。
  2. /robots.txt文件是一个公开可用的文件。任何人都可以看到您不希望机器人使用的服务器部分。 所以不要试图使用/robots.txt来隐藏信息。
  3. 有关/robots.txt的更多信息,请访问/robots.txt