如何从本网站的不同选项卡上抓取内容?

时间:2019-09-26 00:24:06

标签: python web-scraping beautifulsoup

我正在尝试从Thesaurus.com抓取单词的同义词(使用bs4和请求)。页面示例:https://www.thesaurus.com/browse/put?s=t 我遇到的问题是,针对该词的不同含义有三个不同的选项卡,每个选项卡都有不同的同义词列表。我想全部删除它们,但不确定如何访问非活动标签中列出的同义词。当我打印汤的html和ctrl + f时,来自非主选项卡的同义词似乎根本不在html中,这似乎向我表明我不能简单地将页面刮一次。无论如何,获得这些其他同义词的最简单方法是什么?

编辑: 根据评论的要求,这是我目前的代码来抓取一个单词。就像我说的那样,这段代码非常完美。我只是不知道如何从页面上的其他选项卡中抓取。

JOB[0134742-190911204352052-oozie-oozi-C] ACTION[0134742-190911204352052-oozie-oozi-C@1] [0134742-190911204352052-oozie-oozi-C@1]::ActionInputCheck:: File:hdfs://labs-xxx/data/funcxx/inputs/uploads/reports-for-targeting/20190923/14, Exists? :true

EDIT2:cddt的评论为我提供了一条我想要的数据的替代途径,但是如果有人知道,我仍然很好奇如果没有他的解决方案我该如何解决问题。

0 个答案:

没有答案