我是硒的完全入门者。我想知道,例如,在加载reddit页面时,如何获取该页面上reddit帖子的所有标题。我知道这些的HTML标头是h2,而且我知道如何获取reddit网站的第一个标头。但是,如何切换到同一个类的下一个元素以进行抓取?我正在使用python和selenium。谢谢!
答案 0 :(得分:0)
首先,您要获取类的所有元素(将myClass更新为所需的类):
driver.find_elements_by_class_name("myClass")
然后将该类的所有元素保存在数组中。我将让您尝试确定如何从中访问第二个元素。
答案 1 :(得分:0)
对于reddit,要获取页面上所有标题的列表,请使用php artisan config:cache
php artisan cache:clear
获取页面上所有标题的数组。
答案 2 :(得分:0)
这个问题的措词很混乱,但是我认为您只想使用h2
标记遍历页面上的所有元素。
例如:
elements = driver.find_elements_by_tag_name('h2')
for element in elements:
print(element.text)
答案 3 :(得分:-1)
如果您需要有关如何遍历体内元素的简单示例,请随时在https://github.com/kerwei/LimaSE_Scraper/blob/master/lima_scrape.py上查看我的迷你项目
您可能会对第113-114行感兴趣。
如上一个答案所指出:
driver.find_elements_by_xpath(pattern)
为您提供所有目标元素。请注意元素 s 中的(s)。此后,您只需要遍历该方法返回的可迭代对象。