用于识别电子邮件中引用文本的现有工具或代码

时间:2009-03-30 01:32:26

标签: email email-parsing

我正在寻找一种识别电子邮件中引用文字的方法。目标是在我的网络应用程序中添加一些与Gmails“show quoted text”功能相关的内容,其中涉及邮件处理程序机器人。

stackoverflow上有类似的问题,但他们要求的算法。如果必须的话,我可以实现这一点,但我更倾向于尝试一种真正的解决方案。

要求:

1)支持HTML和纯文本电子邮件

2)在完整的主题上操作(也就是说,它有原始文本来比较引用的文本;无需猜测)

3)处理与报价相关的常见内容,例如“2008年5月10日下午6:35,Brandon写道:”

一个蟒蛇图书馆将是超级神奇的理想,但我不希望那么幸运。一个简单的命令行工具可以做到这一点非常接近理想,但我也不希望那么幸运。我很乐意从一个开源邮件客户端的一个众所周知的良好实现中解决,这个实现可以合理地提取到一个工具中。

有没有人建议我最好的选择是什么?

我很惊讶没有“电子邮件处理程序机器人构建工具包”这样的东西。

2 个答案:

答案 0 :(得分:2)

关注我收到的有关此问题的电子邮件。

Sup有一个非常容易理解/提取/翻译的逻辑位来完成这个。我将相关函数移植到Python并根据我的目的进行了调整。

Sup是用Ruby编写的基于终端的邮件客户端:http://sup.rubyforge.org/

答案 1 :(得分:0)

Google拥有自己的方法专利: http://www.google.co.uk/patents/US7222299