使用Python将图像类型的电子邮件转换为文本

时间:2019-05-21 16:06:16

标签: scrapy

我偶然发现了一个网站,该网站为了保护其内容将普通文本转换为图像,因此不易被蜘蛛刮擦。

这是代码:

<img id="ctl00_ctl00_cphMain_cphMainCol_CompanyDetailsInfoData1_imgMail"
 src="https://www.bizi.si/ImageGenerator.aspx?JXwFUy4U5m5jKwuO3IgV3ASgH0Id5ve7uMFqS922Ezc6IUi0sEN3kHSxb0hVFQZUGP73%2bADQ6cwFmaVlY5EkzN0wTftd%2bET2KzDb1TxL434%3d">

包含企业电子邮件的URL如下:

https://www.bizi.si/ImageGenerator.aspx?JXwFUy4U5m5jKwuO3IgV3ASgH0Id5ve7uMFqS922Ezc6IUi0sEN3kHSxb0hVFQZUGP73%2bADQ6cwFmaVlY5EkzN0wTftd%2bET2KzDb1TxL434%3d

渲染时显示为以下图像:

enter image description here

有人知道如何用普通文本解码上述网址吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

您必须下载图像(为图像URL生成Request,图像字节将在response.body可用)并使用OCR解决方案,例如https://github.com/madmaze/pytesseract