使用pandas read_html函数提取表?

时间:2016-08-30 15:48:34

标签: python html pandas web-scraping

这是一个不寻常的问题。我试图从某个网站提取一个表(由于安全性,链接不能给出)。问题是,当通过网站访问时,站点将加载表,但是当我们对该表上的任何值/表使用map[mysql:map[host:localhost username:root password:mysql] couchbase:map[host:couchbase://localhost] tablePrefix:tbl] 时,它是不可见的。它只显示inspect element里面有一些脚本和链接。最初我尝试使用<html>_</html>提取表,但是没有成功。然后我用了熊猫 beautifulsoup但该网站包含多个表格,其输出类似于此

pandas.read_html(html)

然后我尝试了这样的事情[ Code Name 0 A John 1 B Terry 2 C Kitty Column 1 Column 2 Column 3 0 1 0.6173661242 8 1 2 0.7232098163 20 2 3 0.9954581943 39 3 4 0.5595425507 18 4 5 0.9644025159 20 5 6 0.3914102544 29 6 7 0.0154642132 49 .... [873 rows x 3 columns], 0\n\t\t\t\t\t\t\t\t\t 0 0 ] 它会返回此错误

  

ValueError:找不到匹配模式'Column 1'的表

任何想法我们如何使用read_html来提取表格?

1 个答案:

答案 0 :(得分:0)

当数据从安全网站上删除时,网站可以使用Java来加载表格,这样您就不会看到HTML样式的代码。这可能就是为什么BeautifulSoup没有返回任何东西。

“里面的脚本和链接”看起来像Java吗?

也许看看Selenium?