标签: python email character-encoding rapidminer email-headers
我正在尝试对我从电子邮件客户端(OS X中的Mail)导出的电子邮件进行一些文本挖掘,只需复制并粘贴到rtf文件即可。 当我尝试在python或rapidminer中对文件运行tf-idf时,我得到的功能显然不在消息内容本身中。我想知道它们来自哪里或我如何摆脱它们。也许是从标题?例如:fonttbl,colortbl,cocoa rtf,paperw等功能。显然,它们是电子邮件的一些属性。它们来自哪里,如何删除更多文件或仅从原始电子邮件中提取电子邮件内容? 也许这是一个编码问题??
谢谢!