如何使用python

时间:2019-01-08 05:27:25

标签: python selenium google-chrome reddit

我是硒的完全入门者。我想知道,例如,在加载reddit页面时,如何获取该页面上reddit帖子的所有标题。我知道这些的HTML标头是h2,而且我知道如何获取reddit网站的第一个标头。但是,如何切换到同一个类的下一个元素以进行抓取?我正在使用python和selenium。谢谢!

4 个答案:

答案 0 :(得分:0)

首先,您要获取类的所有元素(将myClass更新为所需的类):

driver.find_elements_by_class_name("myClass")

然后将该类的所有元素保存在数组中。我将让您尝试确定如何从中访问第二个元素。

答案 1 :(得分:0)

对于reddit,要获取页面上所有标题的列表,请使用php artisan config:cache php artisan cache:clear 获取页面上所有标题的数组。

答案 2 :(得分:0)

这个问题的措词很混乱,但是我认为您只想使用h2标记遍历页面上的所有元素。

例如:

elements = driver.find_elements_by_tag_name('h2')
for element in elements:
    print(element.text)

答案 3 :(得分:-1)

如果您需要有关如何遍历体内元素的简单示例,请随时在https://github.com/kerwei/LimaSE_Scraper/blob/master/lima_scrape.py上查看我的迷你项目

您可能会对第113-114行感兴趣。

如上一个答案所指出:

driver.find_elements_by_xpath(pattern)

为您提供所有目标元素。请注意元素 s 中的(s)。此后,您只需要遍历该方法返回的可迭代对象。