从网站抓取电子邮件信息时遇到问题

时间:2021-06-11 12:16:54

标签: python php beautifulsoup tesseract

我希望获得将 www.confluence.org 上的图像用于艺术项目的许可,但我需要通过访问每个成员并征求他们的许可来做到这一点。网站上约有 10,000 人。

我想使用 BeautifulSoup 抓取网站上的所有电子邮件,因此我可以发送一封群发电子邮件,而不是 10,000 次。

然而,问题是电子邮件没有使用文本写入 html,但我假设是一个 php 文件......位于 img src 内。

<img src="visitormailimg.php?id=851" border="0" alt>

以及如何在网站上显示的示例是 enter image description here

我最初认为上面的电子邮件是一个简单的图像,我可以通过 tesseract 运行它来获取电子邮件的文本版本,但 tesseract 无法将其识别为图像对象。我可以手动点击并下载 php 文件作为图像,但我无法弄清楚如何在抓取时做类似的事情

然后我将网页保存到桌面上的文件夹中并打开保存的 php 文件visitormailimg.php。除非打开它,否则我在 vscode 中得到“该文件未显示在编辑器中,因为它是二进制文件或使用了不受支持的文本编码”。

所以我在这个阶段不确定如何继续抓取 ww.confluence.org 网站。是图像问题吗……是 php 问题吗?有什么建议吗?

0 个答案:

没有答案