使用Python中的字符串方法进行网络抓取时遇到问题

时间:2020-09-01 21:48:31

标签: python html urllib

我对网页抓取非常陌生,我正在使用Python编写一个简单的程序,该程序使用诸如str.find()之类的字符串方法。

当前,我通过以下方式将网页的HTML代码提取为字符串

from urllib.request import urlopen

html_str = urlopen(url).read().decode('utf-8')

但是,我对于为什么不返回所有代码感到困惑。例如,Youtube频道页面上显示的订阅者人数带有

<yt-formatted-string id="subscriber-count" class="style-scope ytd-c4-tabbed-header-renderer">106M subscribers</yt-formatted-string>

但是此字符串不会出现在html_str中。

那么,怎么了?我在做什么或使用不正确吗?

1 个答案:

答案 0 :(得分:1)

某些Web抓取库未获取JavaScript代码或值。我确实知道也可以获取JavaScript代码的一个库是“ Selenium”。但是这样做的代价是它的运行速度似乎比其他抓取库慢。