Question

我最近遇到了一个问题，我不知道该怎么做。我有链接到很多的Mega.nz档案，我需要抓取（页面上显示的文本）的文本内容，但我不知道该怎么做它。例如，请参阅此存档：

显然，我需要获取大量文本（特别是文件夹名称）（出于隐私原因而模糊）。但是，当我查看页面的来源时，我得到了这个：

该页面上的所有链接都不会导致任何文本信息！我通常会做的只是使用Python下载源HTML然后分析它，但显然在这种情况下不会工作。我可以使用谷歌浏览器中的Control + F手动搜索每个存档的文本，但是我需要数百个这些存档来获取文本，因此该方法显然不会起作用。

我不确定在这种情况下我能做些什么。有什么方法可以得到这个文本吗？

Answer 1

您使用的是哪个库？我确定您使用的是requests或scrapy。

您最好将Selenium用于此类网站，

简而言之，selenium允许您通过Python控制Web浏览器。主要功能是计算和执行DOM中的Javascript，因此您可以访问＆＃34;实际计算的＆＃34; HTML源代码。

我会做什么，

driver = selenium.webdriver.Chrome()
driver.get('http://www.mega.nz/egg/bacon/SPAM')
time.sleep(3)
raw_html = driver.page_source

它基本上调用URL，等待3秒以确保所有内容都已加载并执行Javascript，然后获取当前页面源。

之后，您只需将raw_html解析为bs4.BeautifulSoup实例并提取数据。

Ho，因为您似乎只计算了此列表一次，您只需在浏览器上点击F12键，找到console标签并推送一些Javascript来提取列表：）