我有一个1.8Mb的文本文件。它是1974年的每日价值数据文件。典型的数据行如下所示。
1979 12 5 1.345678 0.1234985 5 0.56342145 Final_value
1979 12 6 0 0 0 0 Missing_value
1979 12 7 1.928345 0.4784356 8 1.76942542 Preliminary_value
每一天都有相同类型的设置,所有内容都列在列中。
我希望能够处理数据,获取一段时间内的平均值,绘制数据图表等。文本文件中有两个标题行必须首先取消,否则所有数据看起来都是相同。
将数据拆分为???的最佳方法是什么?然后能够读取单独数据的各个位并进行处理。在这种情况下,我真的很丢失。在VB中它很容易,但我还没有足够使用Python,甚至无法弄清楚使用什么正确的术语而不是数组。我希望每个元素都是一个自己的'数组',并且每个元素都会有截至当前日期的12,000多个元素。
答案 0 :(得分:2)
安装pandas
,然后只需阅读文件使用pandas.read_table
:
import pandas as pd
data_frame = pd.read_table('test_data.txt', sep='\s+', header=None)
data_frame.columns = ['year', 'month', 'day', 'n1', 'n2', 'n3', 'n4', 'type']
data_frame
作为起点,您可能需要尝试data_frame.describe()
。
有许多功能可以聚合或汇总数据。有关详细信息check out the documentation