我不能用美丽的汤来抽出时间...为什么?

时间:2016-02-15 03:47:21

标签: python beautifulsoup screen-scraping

This is the HTML code

我需要提取日期和时间,但是当我这样做时:

html = BeautifulSoup(htmlText, "html.parser")

contenido = html.find('span', {'id': 'hora'}).getText()

print(contenido)

输出中没有显示任何内容但没有&#34; getText()&#34;输出是 <span id="hora"></span>没有时间。我能做什么?我用Python编码。

2 个答案:

答案 0 :(得分:0)

最有可能用JS插入时间。尝试加载整个页面并使用解释器搜索此字符串。如果这条线不及时 - 那我就是对的。浏览器和脚本通常以不同的方式查看页面。如果是这样,您可以尝试Ctrl + Chift + U并在标签网络中查找时间。如果不存在,则在页面上查找脚本。

在网络中查找 - &gt; XHR。如果这没有请求时间,则需要使用Selenium进行解析。解析器不支持脚本内的处理。

答案 1 :(得分:0)

这与硒一起工作!谢谢Jrazor!

hora = driver.find_element_by_class_name("segundaLinea").text

现在我可以得到时间! :)