driver.page_source使用硒

时间:2019-08-24 13:02:25

标签: python selenium web-scraping meta-tags meta

我想抓取一个网站,以使用以下代码获取页面内容:

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
driver = webdriver.Remote("http://adress:4444/wd/hub", DesiredCapabilities.CHROME)
link = 'website_url'
driver.get(link)
s = driver.page_source
print((s.encode("utf-8")))
driver.quit()

这就是收到的东西:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

我也尝试了很多不同的方法,例如Luminati,代理newipnow,phantomjs,但没有用,还有什么建议我可以尝试解决吗?

1 个答案:

答案 0 :(得分:1)

<meta name="ROBOTS" content="value">

此元标记向不同的搜索引擎传达有关允许或禁止在特定页面上执行的操作的信息。该元标记可以放在<head></head>标记内的任何位置。

注意 ::由于此<meta>标签没有在整个网站范围内起作用,因此可以在同一网站的不同页面上包含不同的值。

有效的为:

  • Index(默认值)
  • Noindex
  • None
  • Follow
  • Nofollow
  • Noarchive
  • Nosnippet

这些值也可以组合以形成所需的有效元机器人标签。

示例:

  • <meta name="robots" content="noindex" />
  • <meta name="robots" content="index,follow" />
  • <meta name="robots" content="index,follow,noarchive" />

content="NOINDEX, NOFOLLOW"

NOINDEX值表示搜索引擎对页面建立索引,因此该页面不应显示在搜索结果中。 NOFOLLOW值表示搜索引擎NOT跟踪或发现此页面上链接到的页面。

Web开发人员在开发网站上添加了 NOINDEX NOFOLLOW 元机器人标记,因此搜索引擎意外地不会开始向仍在建设中的网站发送流量


为什么看到?

原因可能是以下之一:

  • 您正在尝试在开发环境中执行自动测试
  • 开发团队意外地将此标签添加到实时网站中。
  • 开发团队上线后忘记将其从实时网站中删除。

参考

What is the meaning of the meta name "robots" tag


Outro

Using the robots meta tag