Python:从网站中提取不在原始HTML中的文本

时间:2017-07-12 18:40:29

标签: python web-scraping

我遇到的情况是我从网页抓取数据,需要将这些数据(一串字符串)存储在txt文件中。我已经为许多网站编写了代码来执行此操作,但是我有一个路障,其中BeautifulSoup似乎不起作用。

以此网站为例:http://www.vucommodores.com/gametracker/launch/gt_mbasebl.html?event=1530990&school=vand&sport=mbasebl&camefrom=&startschool=&

我希望能够点击播放按钮然后从第1局,第2局等提取文本。是否有人知道这样做的方法,因为文本不可用原始HTML就像我的所有其他例子一样。

谢谢!

2 个答案:

答案 0 :(得分:2)

我不认为这就是BeautifulSoup的意思。您可以使用Selenium for Python与浏览器进行交互,并模拟点击。然后从html中提取。

答案 1 :(得分:2)

@Lgiro是对的。您是否想要使用页面元素进行操作,例如切换选项卡或单击按钮,您需要模拟浏览器并将javascript注入窗口。最好的工具是Selenium。以下是python-selenium docs