http://www.vliz.be/vmdcdata/mangroves/aphia.php?p=browser&id=235056&expand=true#ct (这是我试图抓的信息)
我想刮掉这些详细的分类树,这样我就可以操纵它们了。
但是在提交树数据时存在一些问题。
我无法完全扩展分类树。当一些扩张时,一些按指令指示崩溃。 所以保存整页作为HTML文件无法解决我的问题。 或者我可以重复这个过程一段时间来获取单独的文件并将它们连接起来......但这似乎是一种丑陋的方式。
我厌倦了点击,有太多的“加号”标志,我不得不等待。
有没有办法使用 Python 来解决这个问题?
答案 0 :(得分:0)
使用Selenium
,这将通过单击“加号”展开树,并在完成后获取包含其中所有元素的整个DOM:
from selenium import webdriver
import time
browser=webdriver.Chrome()
browser.get('http://www.vliz.be/vmdcdata/mangroves/aphia.php?p=browser&id=235301&expand=true#ct')
while True:
try:
elem=browser.find_elements_by_xpath('.//*[@src="http://www.marinespecies.org/images/aphia/pnode.gif" or @src="http://www.marinespecies.org/images/aphia/plastnode.gif"]')[1]
elem.click()
time.sleep(2)
except:
break
content=browser.page_source