这是一个不寻常的问题。我试图从某个网站提取一个表(由于安全性,链接不能给出)。问题是,当通过网站访问时,站点将加载表,但是当我们对该表上的任何值/表使用map[mysql:map[host:localhost username:root password:mysql] couchbase:map[host:couchbase://localhost] tablePrefix:tbl]
时,它是不可见的。它只显示inspect element
里面有一些脚本和链接。最初我尝试使用<html>_</html>
提取表,但是没有成功。然后我用了熊猫
beautifulsoup
但该网站包含多个表格,其输出类似于此
pandas.read_html(html)
然后我尝试了这样的事情[ Code Name
0 A John
1 B Terry
2 C Kitty
Column 1 Column 2 Column 3
0 1 0.6173661242 8
1 2 0.7232098163 20
2 3 0.9954581943 39
3 4 0.5595425507 18
4 5 0.9644025159 20
5 6 0.3914102544 29
6 7 0.0154642132 49
....
[873 rows x 3 columns],
0\n\t\t\t\t\t\t\t\t\t
0 0 ]
它会返回此错误
ValueError:找不到匹配模式'Column 1'的表
任何想法我们如何使用read_html来提取表格?
答案 0 :(得分:0)
当数据从安全网站上删除时,网站可以使用Java来加载表格,这样您就不会看到HTML样式的代码。这可能就是为什么BeautifulSoup没有返回任何东西。
“里面的脚本和链接”看起来像Java吗?
也许看看Selenium?