如何在scrapy中提取javascript值

时间:2016-04-22 10:17:25

标签: python scrapy

我正在使用scrapy抓取youtube视频,我需要视频的标题/描述语言。当我在this video上使用浏览器查看源时,我可以在脚本标记内部有一个变量{{1} }。我可以在scrapy及其扩展中提取此值,或者我应该使用像beautifulsoup / htmlparser这样的库下载和解析html。

2 个答案:

答案 0 :(得分:1)

是的,这可以使用Scrapy。您可以查看this question

有很多方法可以实现您的目标。一种是使用scrapy的选择器获取<script>标记,然后使用regex获取您正在寻找的特定METADATA_LANGUAGE变量。

答案 1 :(得分:1)

基于this,您可以使用xpath / css选择脚本文本,然后使用正则表达式搜索变量名称。 Assum第一个脚本包含METADATA_LANGUAGE

items = response.xpath('//script/text()')[0].re(".*METADATA_LANGUAGE.*")