构建克服Ajax的URL

时间:2019-04-29 11:31:31

标签: python web-scraping beautifulsoup

我尝试在iframe中提取一些表格, 所以我从中获得了src URL,以便直接获取该URL。

使用chrome检验,我发现了查询字符串规则来构造 我的目标表的网址。 但是有趣的是,我发现每当尝试从此构造的URL获取结果表时,都无法检索该表,而bs4却产生了空结果。当我从URL中删除单词“ ajax”时,它会检索到一些有趣的扭曲表,但缺少一些信息。 我想尽量避免使用Selenium。

以下链接是我从原始网页的iframe中提取的src URL。
通过单击属性名称为“ cns_Tab21”的元素来显示该表。 http://bitly.kr/sBKDIK 感谢您阅读这篇文章!

1 个答案:

答案 0 :(得分:0)

对此我没有什么建议。

  1. 在源代码页中检查数据可用性
  2. 尝试使用“检查”>“网络”来识别数据的实际来源(也可以使用此 charlesproxy 进行调试)
  3. 下载HAR文件并检查来源

这可以帮助您解决这个问题。 90%的站点不需要硒