我想抓取一个网站,以使用以下代码获取页面内容:
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
driver = webdriver.Remote("http://adress:4444/wd/hub", DesiredCapabilities.CHROME)
link = 'website_url'
driver.get(link)
s = driver.page_source
print((s.encode("utf-8")))
driver.quit()
这就是收到的东西:
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
我也尝试了很多不同的方法,例如Luminati,代理newipnow,phantomjs,但没有用,还有什么建议我可以尝试解决吗?
答案 0 :(得分:1)
<meta name="ROBOTS" content="value">
此元标记向不同的搜索引擎传达有关允许或禁止在特定页面上执行的操作的信息。该元标记可以放在<head>
和</head>
标记内的任何位置。
注意 ::由于此<meta>
标签没有在整个网站范围内起作用,因此可以在同一网站的不同页面上包含不同的值。
有效的值为:
Index
(默认值)Noindex
None
Follow
Nofollow
Noarchive
Nosnippet
这些值也可以组合以形成所需的有效元机器人标签。
示例:
<meta name="robots" content="noindex" />
<meta name="robots" content="index,follow" />
<meta name="robots" content="index,follow,noarchive" />
NOINDEX
值表示搜索引擎不对页面建立索引,因此该页面不应显示在搜索结果中。 NOFOLLOW
值表示搜索引擎NOT
跟踪或发现此页面上链接到的页面。
Web开发人员在开发网站上添加了 NOINDEX , NOFOLLOW 元机器人标记,因此搜索引擎意外地不会开始向仍在建设中的网站发送流量
原因可能是以下之一:
What is the meaning of the meta name "robots" tag