晚安。 我正在尝试访问https://www.continente.pt/,但我得到的只是一个空白页,顶部有一个黑条。 我已经在使用这些选项了:
mydata <- structure(list(ID = c("mw21e10", "mw61e10", "mw61e10"), Data = c(878L,
908L, 1073L)), class = "data.frame", row.names = c(NA, -3L))
不起作用,我仍然阻止加载内容。
答案 0 :(得分:1)
网站对蜘蛛的规则不同,主要是通过域的robots.txt文件进行总结。看到https://www.continente.pt/robots.txt,下面是输出:
$WebResponse = Invoke-WebRequest -Uri https://www.livesquawk.com/latest-news
$lists = $WebResponse.ParsedHtml.DocumentElement.GetElementsByTagName('div')
$nodes = $lists[0].childNodes
$r = $lists | % {
[pscustomobject]@{
Time = $_.getElementsByClassName('latest_news_each_time')[0].innerText.Substring(0) | Where-Object { $_ -match "\d+.*" } | foreach { $Matches.Values }
News = $_.getElementsByClassName('latest_news_each_title')[0].innerText
}
}
$R
这可能表明网站所有者不希望任何人抓取它们。根据您的脚本和网站,它们也可能阻止对蜘蛛的访问。您还可以使用其他Web驱动程序(例如Firefox)进行检查。
您还可以检查您的IP地址是否被阻止。如果是这种情况,请尝试重置具有动态IP地址的路由器,或者找到要与脚本一起使用的旋转IP提供程序。
答案 1 :(得分:0)
好吧,我通过卸载所有基于chrome的浏览器和所有组件找到了答案。 然后,我安装了Opera(带有86 Chrome)并下载了ChromeDriver 86。 在那之后,我获得了访问权,却没有得到阻止(已经尝试访问该站点10次,并且仍然可以正常连接)。
我没有添加任何新代码,只是这样:
from selenium import webdriver
url = "https://www.website.com"
driver = webdriver.Chrome()
driver.get(url)