我正在使用scrapy抓取youtube视频,我需要视频的标题/描述语言。当我在this video上使用浏览器查看源时,我可以在脚本标记内部有一个变量{{1} }。我可以在scrapy及其扩展中提取此值,或者我应该使用像beautifulsoup / htmlparser这样的库下载和解析html。
答案 0 :(得分:1)
是的,这可以使用Scrapy。您可以查看this question。
有很多方法可以实现您的目标。一种是使用scrapy的选择器获取<script>
标记,然后使用regex获取您正在寻找的特定METADATA_LANGUAGE
变量。
答案 1 :(得分:1)
基于this,您可以使用xpath / css选择脚本文本,然后使用正则表达式搜索变量名称。 Assum第一个脚本包含METADATA_LANGUAGE
:
items = response.xpath('//script/text()')[0].re(".*METADATA_LANGUAGE.*")