Question

我希望获得将 www.confluence.org 上的图像用于艺术项目的许可，但我需要通过访问每个成员并征求他们的许可来做到这一点。网站上约有 10,000 人。

我想使用 BeautifulSoup 抓取网站上的所有电子邮件，因此我可以发送一封群发电子邮件，而不是 10,000 次。

然而，问题是电子邮件没有使用文本写入 html，但我假设是一个 php 文件......位于 img src 内。

<img src="visitormailimg.php?id=851" border="0" alt>

以及如何在网站上显示的示例是

我最初认为上面的电子邮件是一个简单的图像，我可以通过 tesseract 运行它来获取电子邮件的文本版本，但 tesseract 无法将其识别为图像对象。我可以手动点击并下载 php 文件作为图像，但我无法弄清楚如何在抓取时做类似的事情

然后我将网页保存到桌面上的文件夹中并打开保存的 php 文件visitormailimg.php。除非打开它，否则我在 vscode 中得到“该文件未显示在编辑器中，因为它是二进制文件或使用了不受支持的文本编码”。

所以我在这个阶段不确定如何继续抓取 ww.confluence.org 网站。是图像问题吗……是 php 问题吗？有什么建议吗？