来自javascript的scrapy提取源url

时间:2017-09-10 06:24:35

标签: javascript python web-scraping scrapy

我正在尝试从javascript中提取数据。 js看起来像 -

<script type="text/javaScript">
var playerInstance = jwplayer("player");
playerInstance.setup({
    image: "http://cdn1.gomoviesgo.com/movies/1230451279-cover-Wonder-Woman.jpg",
    sources: JSON.parse('[{"file":"http:\/\/stream.gomo.to\/home\/movies\/tt0451279.mp4","label":"720<sup>HD<\/sup>"}]'),
    width: "100%"
});
</script>

我需要图片网址http://cdn1.gomoviesgo.com/movies/1230451279-cover-Wonder-Woman.jpg和源网址"http:\/\/stream.gomo.to\/home\/movies\/tt0451279.mp4"

请指导。

1 个答案:

答案 0 :(得分:0)

您无法使用html解析器解析js,但您可以使用正则表达式。

SomethingElseEntirelyException

或者您可以使用内置的re方法。

image = re.search('image:\s*"(.*?)",', data).group(1)
file = re.search('"file":"(.*?)",', data).group(1).replace('\\', '')