标签: python youtube
我已经从Google Takeout下载了Youtube的观看记录,很遗憾,该记录只能以html文件而不是json的形式提供。
我研究了使用pandas.read_html和BeautifulSoup进行抓取,尽管它们似乎适合表中的数据。如图所示,Youtube观看历史记录位于各个块中,尽管它们遵循相同的格式。
因此,我正在寻找有关当数据不在表中但对于所有实例(数千个)都采用相同格式时如何刮取数据的建议。