Question

我有一个网站，其中包含我想要存储在javascript中的数据。我该如何获取它？

我想从＆＃34; var playersData＆＃34;线。我想取这个东西： - ＆＃34; playerId＆＃34;：＆＃34; showsPlayer＆＃34; （显然没有引号）。我该怎么做？

我尝试过美味的汤。我当前的脚本看起来像这样

q = requests.get('websitelink')
soup = BeautifulSoup(q.text)

searching = soup.findAll('script',{'type':'text/javascript'})
for playerIdin searching:
  x = playerId.find_all('var playersData', limit=1)
  print x

我将[]作为我的输出。我似乎无法在这里弄清楚我的问题。请帮助男人和女孩：）

Answer 1

BeautifulSoup只会帮助您找到所需的script代码。然后，您将有多个选项：您可以使用javascript解析器（如slimit）提取所需数据，或使用正则表达式：

import re

from bs4 import BeautifulSoup

page = """
<script type="text/javascript">
            var logged = true;
            var video_id = 59374;
            var item_type = 'official';

            var debug = false;
            var baseUrl = 'http://www.example.com';
            var base_url = 'http://www.example.com/';
            var assetsBaseUrl = 'http://www.example.com/assets';
            var apiBaseUrl = 'http://www.example.com/common';
            var playersData = [{"playerId":"showsPlayer","userId":true,"solution":"flash","playlist":[{"itemId":"5090","itemAK":"Movie"}]];
</script><script type="text/javascript" >
"""
soup = BeautifulSoup(page)

pattern = re.compile(r'"playerId":"(.*?)"', re.MULTILINE | re.DOTALL)
script = soup.find("script", text=pattern)

print pattern.search(script.text).group(1)

打印：

showsPlayer

如何在python中获取javascript内容

1 个答案: