在电子邮件的屏幕截图中模糊用户详细信息

时间:2011-07-06 14:48:22

标签: .net image-processing image-manipulation ocr

我希望能够在电子邮件的屏幕截图中自动模糊用户详细信息,其中包含明文用户名和密码等详细信息:

我从plaintextoffenders.com拍摄的照片。

目标是通过自动(尝试)模糊用户名和密码,更轻松地提交此类电子邮件的屏幕截图。

对于这种特殊情况,是否足够:

  1. 通过OCR运行图像,查找“用户名”和“密码”字样
  2. 选择OCR匹配右侧的文字
  3. 模糊选择
  4. 这是一种天真的做法,但这种情况应该足够吗?我意识到电子邮件格式可能会有所不同,我会在时机成熟时处理它。

    在解决此问题时我应该知道的任何特定算法或实现?

    谢谢!

2 个答案:

答案 0 :(得分:1)

您将面临以下几个需要考虑的问题:

  • 俚语中的密码
  • 所有语言的密码翻译
  • 所有语言的不同案例
  • 密码后是否有Environment.NewLine?冒号?逗号?

我要做的是运行一些算法来查找特定文本,就像你的案例Password中只有一个翻译和案例,然后我会模糊下一个单词(你必须担心不同的字体和monospace等也在这里..)。

但我不会只是“保存”图像并让它像那样,向用户上传“固定”图像并让用户“移动”模糊并调整其大小。

这就像Googles Picasa中的面部识别一样,效果很好,但并不是所有时间,如果不是,那么你总会得到另一种选择。

你看过OCRTools了吗?他们对他们的组件进行了免费试用,看起来很有希望。

答案 1 :(得分:0)

除了菲利普提到的问题,可能存在准确性问题。我尝试过的开源OCR工具对截图的准确性很差,即通过node.js的Ocrad.js和tessearct。但是,屏幕截图上的OCR应该比扫描的文档更容易。我认为这些不起作用的原因是由于训练和测试数据不匹配,即他们是在pdf文档上训练而不是截图。因此,您可能必须首先将屏幕截图添加到训练集并重新训练。

基于HTML5的在线图像编辑工具www.facepixelizer.com 2具有面部检测功能并自动对面部进行像素化处理,但它没有OCR来模糊密码或电子邮件地址。

然而,使用facepixelizer编辑屏幕截图非常快速。它有一个专门的模糊工具,可以调整模糊以匹配字体大小。 [免责声明:我根据自己的教学写作和博客需求创建了facepixelizer。]

enter image description here