我对网页抓取非常陌生,我正在使用Python编写一个简单的程序,该程序使用诸如str.find()
之类的字符串方法。
当前,我通过以下方式将网页的HTML代码提取为字符串
:from urllib.request import urlopen
html_str = urlopen(url).read().decode('utf-8')
但是,我对于为什么不返回所有代码感到困惑。例如,Youtube频道页面上显示的订阅者人数带有
<yt-formatted-string id="subscriber-count" class="style-scope ytd-c4-tabbed-header-renderer">106M subscribers</yt-formatted-string>
但是此字符串不会出现在html_str
中。
那么,怎么了?我在做什么或使用不正确吗?
答案 0 :(得分:1)
某些Web抓取库未获取JavaScript代码或值。我确实知道也可以获取JavaScript代码的一个库是“ Selenium”。但是这样做的代价是它的运行速度似乎比其他抓取库慢。