Question

晚安。我正在尝试访问https://www.continente.pt/，但我得到的只是一个空白页，顶部有一个黑条。我已经在使用这些选项了：

mydata <- structure(list(ID = c("mw21e10", "mw61e10", "mw61e10"), Data = c(878L, 
908L, 1073L)), class = "data.frame", row.names = c(NA, -3L))

不起作用，我仍然阻止加载内容。

Answer 1

网站对蜘蛛的规则不同，主要是通过域的robots.txt文件进行总结。看到https://www.continente.pt/robots.txt，下面是输出：

$WebResponse = Invoke-WebRequest -Uri https://www.livesquawk.com/latest-news
$lists = $WebResponse.ParsedHtml.DocumentElement.GetElementsByTagName('div')
$nodes = $lists[0].childNodes
$r = $lists | % {
    [pscustomobject]@{
        Time = $_.getElementsByClassName('latest_news_each_time')[0].innerText.Substring(0) | Where-Object { $_ -match "\d+.*" } | foreach { $Matches.Values }
        

        News = $_.getElementsByClassName('latest_news_each_title')[0].innerText
    }
}

$R

这可能表明网站所有者不希望任何人抓取它们。根据您的脚本和网站，它们也可能阻止对蜘蛛的访问。您还可以使用其他Web驱动程序（例如Firefox）进行检查。

您还可以检查您的IP地址是否被阻止。如果是这种情况，请尝试重置具有动态IP地址的路由器，或者找到要与脚本一起使用的旋转IP提供程序。

Answer 2

好吧，我通过卸载所有基于chrome的浏览器和所有组件找到了答案。然后，我安装了Opera（带有86 Chrome）并下载了ChromeDriver 86。在那之后，我获得了访问权，却没有得到阻止（已经尝试访问该站点10次，并且仍然可以正常连接）。

我没有添加任何新代码，只是这样：

from selenium import webdriver


url = "https://www.website.com"

driver = webdriver.Chrome()


driver.get(url)

网站禁止访问内容中的硒

2 个答案: