从Mega.nz档案中抓取文本(Python)

时间:2018-05-25 08:41:44

标签: python web-scraping

我最近遇到了一个问题,我不知道该怎么做。我有链接到很多的Mega.nz档案,我需要抓取(页面上显示的文本)的文本内容,但我不知道该怎么做它。例如,请参阅此存档: enter image description here

显然,我需要获取大量文本(特别是文件夹名称)(出于隐私原因而模糊)。但是,当我查看页面的来源时,我得到了这个:

enter image description here

该页面上的所有链接都不会导致任何文本信息!我通常会做的只是使用Python下载源HTML然后分析它,但显然在这种情况下不会工作。我可以使用谷歌浏览器中的Control + F手动搜索每个存档的文本,但是我需要数百个这些存档来获取文本,因此该方法显然不会起作用。

我不确定在这种情况下我能做些什么。有什么方法可以得到这个文本吗?

1 个答案:

答案 0 :(得分:2)

您使用的是哪个库?我确定您使用的是requestsscrapy

您最好将Selenium用于此类网站,

简而言之,selenium允许您通过Python控制Web浏览器。主要功能是计算和执行DOM中的Javascript,因此您可以访问"实际计算的" HTML源代码。

我会做什么,

driver = selenium.webdriver.Chrome()
driver.get('http://www.mega.nz/egg/bacon/SPAM')
time.sleep(3)
raw_html = driver.page_source

它基本上调用URL,等待3秒以确保所有内容都已加载并执行Javascript,然后获取当前页面源。

之后,您只需将raw_html解析为bs4.BeautifulSoup实例并提取数据。

Ho,因为您似乎只计算了此列表一次,您只需在浏览器上点击F12键,找到console标签并推送一些Javascript来提取列表:)