如何抓取无组织的HTML文件

时间:2019-04-01 21:14:04

标签: python beautifulsoup

我有一个HTML文件,其中包含我要抓取的供应商信息。图片只是第一页的一个示例。

我注意到该元素的格式不同。

我希望所有名称都在“ c x27 y3b w3b hb”下

<div class="c x27 y3b w3b hb">
<div class="t m0 x8 hd ya ff9 fs4 fc1 sc0 ls0 ws0">Vendor 1</div></div>

但是不是。下一个供应商名称是“ c x27 y53 w3b hb”,而不是“ c x27 y3b w3b hb”

<div class="c x27 y53 w3b hb">
<div class="t m0 x8 hd ya ff9 fs4 fc1 sc0 ls0 ws0">Vendor 2</div></div>

我的问题是,如果没有组织HTML元素,我该如何抓取信息。我的问题有意义吗?很抱歉没有使用正确的上下文来描述我的问题。

0 个答案:

没有答案