Python pandas令人讨厌的分隔符问题

时间:2016-09-27 20:38:11

标签: python-3.x pandas

我试图将一堆原始电子邮件文本文件读入pandas数据框(Python 3.5),以便将其提供给分类器。如果我有500封电子邮件,我想在数据框中有500行,每行包含一封电子邮件的全部内容。问题是我似乎无法找到一个不会以某种方式拆分电子邮件的分隔符。我认为这是因为文本文件中的电子邮件标题垃圾包含各种异国情调的字符,例如<,(,:等等......当然,电子邮件本身也充斥着逗号,句号和标签。

我可以将电子邮件读入数组,并且数组会将整个电子邮件的内容分配给单个元素,但是当我从中创建一个数据帧时,它会再次拆分电子邮件,所以这不会&# 39;工作要么。

如何强制大熊猫写一整个文件'内容为单行,即使该文件包含制表符,空格,逗号等...?

P.S。我需要它成为一个熊猫数据帧,因为它最适合我正在使用的机器学习应用程序。

0 个答案:

没有答案