我尝试使用BeautifulSoup,但Soup无法解析位于“ body”标签内的信息。尝试解析表时,输出为空。
我该如何解决?
答案 0 :(得分:1)
此页面使用JavaScript添加数据,但是BeautifulSoup
/ LXML
无法运行JavaScript-如果在浏览器中关闭javaScrip并加载页面,则将看到BeautifulSoup / LXML可以得到什么。
您可能需要Selenium来控制可以运行JavaScript的Web浏览器。
或者您可以尝试在DevTools
/ Chrome
中使用Firefox
(标签Network) to get url uses
JavaScript (
AJAX /
XHR {{1} }要求) to download data. And you can try to use this url with
BeautifulSoup`
我发现它使用网址:
我没有检查and
是否需要特殊设置(例如cookie,标题)来获取它。
答案 1 :(得分:0)
您可以使用Puppeteer来“控制”动态网页,并使用BS对其进行抓取。
查看此处:https://github.com/puppeteer/puppeteer/tree/master/examples