Python-Requests跳过网站上的一个部门

时间:2019-05-14 18:18:03

标签: python html web-scraping python-requests

我正在尝试为个人项目扩展网站的HTML,但是Python-Requests似乎正在跳过一个部门。

我正在使用的网站是:https://warframe.fandom.com/wiki/Void_Relic

Here's the HTML directly on the website:

Picture of the entire browser window:

The .txt file Python Scraped:

编辑1:Python版本: 在Win32上使用Python 3.7.3(v3.7.3:ef4ec6ed12,Mar 25 2019,21:26:53)[MSC v.1916 32位(Intel)]

编辑2: 如您所见,在上面的屏幕截图和下面的html代码之间,“

在屏幕截图中显示为: div id = flytabs_0 div id_flytabs_0-content-wrapper 脚本

但是在Python抓取的代码中,缺少第二个部分。

为了方便阅读,我格式化了自己下面的HTML。没有使用自动方法来减少问题中的变量数量。

我尝试过的方法:主要是反复试验,而Gooling无济于事。

Python代码:

import requests

f = open("ScrapedSite.txt", "wb")
source = requests.get("https://warframe.fandom.com/wiki/Void_Relic")

f.write(source.text.encode("utf8"))
f.close()

与屏幕截图相同的HTML部分中的HTML输出:

<div id="mw-customcollapsible-rewarddrops" class="mw-collapsible mw- 
collapsed" style="display:flow-root;">

    <div id="flytabs_0">
        <ul>
            <li>
                <a href="/wiki/Void_Relic/ByRelic">
                    <span>By relic</span>
                </a>
            </li>
            <li>
                <a href="/wiki/Void_Relic/ByRarity">
                    <span>By rarity</span>
                </a>
            </li>
            <li>
                <a href="/wiki/Void_Relic/ByRewards">
                    <span>By rewards</span>
                </a>
            </li>
            <li>
                <a href="/wiki/Void_Relic/ByRewards/SimpleTable">
                    <span>By rewards (simple table)</span>
                </a>
            </li>
         </ul>
    </div>

    <script>JSSnippetsStack.push({dependencies:    
    ["/extensions/wikia/TabView/js/TabView.js","/resources/wikia/libraries 
    /mustache/mustache.js"],callback:function(json) 
    {TabView.init(json)},id:"TabView.init",options: 
    {"id":"flytabs_0","selected":0}})
    </script>
</div>

0 个答案:

没有答案