我正在尝试为个人项目扩展网站的HTML,但是Python-Requests似乎正在跳过一个部门。
我正在使用的网站是:https://warframe.fandom.com/wiki/Void_Relic
Here's the HTML directly on the website:
Picture of the entire browser window:
编辑1:Python版本: 在Win32上使用Python 3.7.3(v3.7.3:ef4ec6ed12,Mar 25 2019,21:26:53)[MSC v.1916 32位(Intel)]
编辑2: 如您所见,在上面的屏幕截图和下面的html代码之间,“
在屏幕截图中显示为: div id = flytabs_0 div id_flytabs_0-content-wrapper 脚本
但是在Python抓取的代码中,缺少第二个部分。
为了方便阅读,我格式化了自己下面的HTML。没有使用自动方法来减少问题中的变量数量。
我尝试过的方法:主要是反复试验,而Gooling无济于事。
Python代码:
import requests
f = open("ScrapedSite.txt", "wb")
source = requests.get("https://warframe.fandom.com/wiki/Void_Relic")
f.write(source.text.encode("utf8"))
f.close()
与屏幕截图相同的HTML部分中的HTML输出:
<div id="mw-customcollapsible-rewarddrops" class="mw-collapsible mw-
collapsed" style="display:flow-root;">
<div id="flytabs_0">
<ul>
<li>
<a href="/wiki/Void_Relic/ByRelic">
<span>By relic</span>
</a>
</li>
<li>
<a href="/wiki/Void_Relic/ByRarity">
<span>By rarity</span>
</a>
</li>
<li>
<a href="/wiki/Void_Relic/ByRewards">
<span>By rewards</span>
</a>
</li>
<li>
<a href="/wiki/Void_Relic/ByRewards/SimpleTable">
<span>By rewards (simple table)</span>
</a>
</li>
</ul>
</div>
<script>JSSnippetsStack.push({dependencies:
["/extensions/wikia/TabView/js/TabView.js","/resources/wikia/libraries
/mustache/mustache.js"],callback:function(json)
{TabView.init(json)},id:"TabView.init",options:
{"id":"flytabs_0","selected":0}})
</script>
</div>