Question

您好，我正在使用 Beautiful Soup 从以下站点 (https://www.otcmarkets.com/market-activity/corporate-actions) 中抓取一张桌子。有一个表叫做 SYMBOL CHANGES。我想获取该表中的数据。我能够在加载页面中捕获数据，但下面有一个名为 more 的类。我不能用硒点击那个班级。我使用下面的代码来查找元素。

html 页面代码

<div class="_2sFaw3zGf1">
   More 
   <svg fill="currentColor" preserveAspectRatio="xMidYMid meet" height="1em" width="1em" viewBox="0 0 40 40" class="APX-ntK2Ti" style="vertical-align: middle;">
      <g>
         <path d="m37.6 18l-16.6 16.6q-0.4 0.4-1 0.4t-1-0.4l-16.6-16.6q-0.4-0.4-0.4-1t0.4-1l3.7-3.7q0.5-0.4 1-0.4t1 0.4l11.9 11.9 11.9-11.9q0.4-0.4 1-0.4t1 0.4l3.7 3.7q0.4 0.4 0.4 1t-0.4 1z"></path>
      </g>
   </svg>
</div>

我用来执行点击事件的代码。

d = driver.find_element_by_xpath("/[contains(text()='More')]")
d.click()

既然那不是按钮对象或锚标记，我应该如何进行？提前致谢。

Answer 1

尝试使用请求和熊猫：

import requests
import pandas as pd

r = requests.get("https://backend.otcmarkets.com/otcapi/corp-actions/symbol-changes?route=symbol-changes&pageSize=900&retainPageSize=true")
df = pd.DataFrame(r.json())
print(df.shape)
print(df)

网页抓取没有锚标签或按钮的特定表格，

1 个答案: