Beautifulsoup webscraping。

时间:2018-09-22 19:15:21

标签: python beautifulsoup

我正在尝试从DnDbeyond抓取数据。我正在使用Beautifulsoup和python,并且已经能够通过使用“ Div”标签和“ Find_all”类来获取一些我需要的信息,但是我似乎无法从包含字符stats的这些格式化块中找到信息。

<div class="ct-skills__col--skill">Animal Handling</div>

我应该只能搜索soup.find("div", {"class": "ct-skills__col--skill"})

对吗?

这就是我当前的代码。

from bs4 import BeautifulSoup
import requests

resp = requests.get('https://www.dndbeyond.com/characters/4741434')
soup = BeautifulSoup(resp.text, 'lxml')

divTag = soup.find_all("div", {"class": "container"})

哪个让我

[<div class="container">
<div class="main content-container" id="content">
<section class="primary-content" role="main">
<div data-character-endpoint="/character/4741434/json" data-character-id="4741434" data-read-only="true" id="character-sheet-target"></div>
<script src="/Content/1-0-482-0/React/CharacterTools/dist/characterSheet.bundle.min.js" type="text/javascript"></script>
</section>
</div>
</div>]

我知道我的信息在“ character-sheet-target”下,但我不知道如何在此获取信息/类。

对不起,如果这很随便,我不知道该怎么解释。

2 个答案:

答案 0 :(得分:1)

您可以使用他们的json api,不需要硒,请参见下面的代码。

import requests
req = requests.get('https://www.dndbeyond.com/character/4741434/json')
print req.json()

答案 1 :(得分:0)

我几乎完成了整个结构的充实。

Objective-C源代码包含所有类定义。

https://github.com/mouser/BeyondDnD