我想要完成的是使大规模下载更容易。问题是,链接位于主页面前打开的页面内。我必须手动单击库,然后展开它。
一旦它被扩展,我可以ctrl + A然后查看源代码以将其复制并粘贴到txt,以便python脚本可以进入并提取链接。
使用firebug后,我可以看到与库窗口相关的div。
<div id="mapLibrary" class="modal hide in" style="display: block;" aria-hidden="false">
我想抓取的链接并创建一个单独的html(我已经可以做)已经存在于div
中 class="libraryGrid" --> <table class="backgrid table table-hover table-bordered table-condensed available> --> <tbody> --> <tr id="subitem_#####" class="subitem"> --> etc etc
这继续直到它到达实际链接。在没有用户打开库和扩展的情况下,我可以在世界上如何直接获取链接。
在我的情况下,唯一一种糟糕的事情是很多可用的工具(例如BS4,硒等)我不能自愿下载/安装它们。
我有什么选择?