Question

这是一个不寻常的问题。我试图从某个网站提取一个表（由于安全性，链接不能给出）。问题是，当通过网站访问时，站点将加载表，但是当我们对该表上的任何值/表使用map[mysql:map[host:localhost username:root password:mysql] couchbase:map[host:couchbase://localhost] tablePrefix:tbl]时，它是不可见的。它只显示inspect element里面有一些脚本和链接。最初我尝试使用<html>_</html>提取表，但是没有成功。然后我用了熊猫 beautifulsoup但该网站包含多个表格，其输出类似于此

pandas.read_html(html)

然后我尝试了这样的事情[ Code Name 0 A John 1 B Terry 2 C Kitty Column 1 Column 2 Column 3 0 1 0.6173661242 8 1 2 0.7232098163 20 2 3 0.9954581943 39 3 4 0.5595425507 18 4 5 0.9644025159 20 5 6 0.3914102544 29 6 7 0.0154642132 49 .... [873 rows x 3 columns], 0\n\t\t\t\t\t\t\t\t\t 0 0 ]它会返回此错误

ValueError：找不到匹配模式'Column 1'的表

任何想法我们如何使用read_html来提取表格？

Answer 1

当数据从安全网站上删除时，网站可以使用Java来加载表格，这样您就不会看到HTML样式的代码。这可能就是为什么BeautifulSoup没有返回任何东西。

“里面的脚本和链接”看起来像Java吗？

也许看看Selenium?

使用pandas read_html函数提取表？

1 个答案: