Question

我对网页抓取非常陌生，我正在使用Python编写一个简单的程序，该程序使用诸如str.find()之类的字符串方法。

当前，我通过以下方式将网页的HTML代码提取为字符串

：

from urllib.request import urlopen

html_str = urlopen(url).read().decode('utf-8')

但是，我对于为什么不返回所有代码感到困惑。例如，Youtube频道页面上显示的订阅者人数带有

<yt-formatted-string id="subscriber-count" class="style-scope ytd-c4-tabbed-header-renderer">106M subscribers</yt-formatted-string>

但是此字符串不会出现在html_str中。

那么，怎么了？我在做什么或使用不正确吗？

Answer 1

某些Web抓取库未获取JavaScript代码或值。我确实知道也可以获取JavaScript代码的一个库是“ Selenium”。但是这样做的代价是它的运行速度似乎比其他抓取库慢。