我使用Jsoup.connect()
从网站上获取当我们使用Jsoup或任何其他技术访问我们的请求时 代码和平,这是有效还是合法?
我们尝试使用Jsoup.connect(“url”)或其他访问的URL 技术。以便网址所有者可以对我们提出指控,以免违反任何规定 一种IT术语。
访问任何类型的网络,例如私人网络,社交网络,这是否合法 PSU网站,政府网络,我们的代码和平,并使用他们的反应过度开发
感谢。
答案 0 :(得分:2)
在抓取网站之前,您必须先阅读网站的robots.txt。对于您可能阅读的内容有书面许可,不应该
关于/robots.txt
网站所有者使用/robots.txt文件提供有关的说明 他们的网站到网络机器人;这被称为机器人排除协议。
它的工作原理如下:机器人想要访问网站网址,比如http://www.example.com/welcome.html。在此之前,它首先检查http://www.example.com/robots.txt,然后找到:
User-agent: *
Disallow: /
“用户代理:*”表示此部分适用于所有机器人 “Disallow:/”告诉机器人它不应该访问任何页面 该网站。
使用/robots.txt时有两个重要注意事项:
有关/robots.txt的更多信息,请访问/robots.txt