我正在寻找一种识别电子邮件中引用文字的方法。目标是在我的网络应用程序中添加一些与Gmails“show quoted text”功能相关的内容,其中涉及邮件处理程序机器人。
stackoverflow上有类似的问题,但他们要求的算法。如果必须的话,我可以实现这一点,但我更倾向于尝试一种真正的解决方案。
要求:
1)支持HTML和纯文本电子邮件
2)在完整的主题上操作(也就是说,它有原始文本来比较引用的文本;无需猜测)
3)处理与报价相关的常见内容,例如“2008年5月10日下午6:35,Brandon写道:”
一个蟒蛇图书馆将是超级神奇的理想,但我不希望那么幸运。一个简单的命令行工具可以做到这一点非常接近理想,但我也不希望那么幸运。我很乐意从一个开源邮件客户端的一个众所周知的良好实现中解决,这个实现可以合理地提取到一个工具中。
有没有人建议我最好的选择是什么?
我很惊讶没有“电子邮件处理程序机器人构建工具包”这样的东西。
答案 0 :(得分:2)
关注我收到的有关此问题的电子邮件。
Sup有一个非常容易理解/提取/翻译的逻辑位来完成这个。我将相关函数移植到Python并根据我的目的进行了调整。
Sup是用Ruby编写的基于终端的邮件客户端:http://sup.rubyforge.org/
答案 1 :(得分:0)
Google拥有自己的方法专利: http://www.google.co.uk/patents/US7222299