如何取消封装受保护的网站?

时间:2019-10-20 15:08:04

标签: web-scraping puppeteer apify incapsula

https://www.genecards.org/cgi-bin/carddisp.pl?gene=ZSCAN22

在上述网页上,如果我单击See all 33,我将看到以下GET请求在Chrome DevTools中发送。

https://www.genecards.org/gene/api/data/Enhancers?geneSymbol=ZSCAN22

直接访问它被阻止。

我尝试使用木偶。我可以使用puppeteer单击“查看全部33”,但随后我需要解析生成的HTML文件。最好直接从https://www.genecards.org/gene/api/data/Enhancers?geneSymbol=ZSCAN22获取结果。我不知道在使用puppeteer单击“查看全部33”后如何获得它。

我不确定apify是否可以提供帮助。

有人可以让我知道如何报废吗?

1 个答案:

答案 0 :(得分:0)

我用硒它工作正常

from selenium import webdriver
browser = webdriver.Chrome(executable_path="C:/src/webdriver/chromedriver.exe")
genesLocations = 'https://www.genecards.org/cgi-bin/carddisp.pl?gene={}'

提取基因组位置

gene='ZSCAN22'
browser.get(genesLocations.format(gene))
location = browser.find_element_by_xpath('//*[@id="genomic_location"]/div/div[3]/div/div')
print(location.text)