无法从基于javascript的网页获取数据

时间:2017-09-01 12:39:58

标签: python web-scraping beautifulsoup

我试图从链接中取出“文件财政期间重点”的季度值:https://www.sec.gov/cgi-bin/viewer?action=view&cik=40545&accession_number=0000040545-14-000049&xbrl_type=v#

当我查看页面的源时,它显示在此信息的标签下方:

<li class="accordion" id="r1" ><a class="xbrlviewer" onClick="javascript:highlight(this);" href="javascript:loadReport(1);">Document and Entity Information</a></li>

在这种情况下,我甚至不必点击任何东西,这个信息在webpase上,但仍然没有显示在html源代码中。我相信它必须用href中的javascript做一些事情。 请指导我如何在Python中完成它

1 个答案:

答案 0 :(得分:0)

是的,它是使用javascript生成的。我建议您使用Firebug或Chrome Developer工具来检查隐藏的JavaScript URL调用。

这是您要查找的链接:https://www.sec.gov/Archives/edgar/data/40545/000004054514000049/R1.htm