如何使用熊猫导入凌乱的.txt文件并删除时间戳?

时间:2018-11-01 17:54:08

标签: python pandas datetime dataframe read.csv

我正在尝试导入包含大量交易数据的txt文件。通常,我可以在Excel中打开文件,然后另存为CSV,但是文件太大,因此我一直在使用Python 3:

df = pd.read_csv("file_name", sep = "\s+", dtype = str)

这提供了一个可以使用的数据帧,但是现在我在日期和时间戳方面存在一些问题。

在txt文件中,这些文件另存为:

2016-12-11 00:00:00.000 "XXXX"  "XXXX"  "XXXXX" "X"

X是其他数据。当我将这些数据导入Python时,我将日期作为索引,日期列中的时间戳记后面是其他变量:

                VAR1.           VAR2.   VAR3.   VAR4.   VAR5. 
2016-12-11      00:00:00.000    XXXX    XXXX    XXXXX   X

导入数据时,我尝试使用以下方法创建新索引:

df = pd.read_csv("file_name", sep = "\s+", dtype = str, index_col = False)

但这最终导致将VAR5推离数据帧,并将时间戳分配给VAR2。

       VAR1.           VAR2.       VAR3.     VAR4.   VAR5. 
1   2016-12-11      00:00:00.000    XXXX    XXXX    XXXXX   

对于将数据从txt文件导入python,删除时间戳记并将datetime应用于第一列的任何帮助,我将不胜感激。

txt文件在变量之间有一些大的空格,每个字符串都用“”封装,例如:

2016-12-11 00:00:00.000 "XXXX"  "XXX"   "XXXX"  "X"

谢谢!

0 个答案:

没有答案