我偶然发现了一个网站,该网站为了保护其内容将普通文本转换为图像,因此不易被蜘蛛刮擦。
这是代码:
<img id="ctl00_ctl00_cphMain_cphMainCol_CompanyDetailsInfoData1_imgMail"
src="https://www.bizi.si/ImageGenerator.aspx?JXwFUy4U5m5jKwuO3IgV3ASgH0Id5ve7uMFqS922Ezc6IUi0sEN3kHSxb0hVFQZUGP73%2bADQ6cwFmaVlY5EkzN0wTftd%2bET2KzDb1TxL434%3d">
包含企业电子邮件的URL如下:
渲染时显示为以下图像:
有人知道如何用普通文本解码上述网址吗?
谢谢!
答案 0 :(得分:1)
您必须下载图像(为图像URL生成Request
,图像字节将在response.body
可用)并使用OCR解决方案,例如https://github.com/madmaze/pytesseract。