我有一个大型文本文档的数据点(每个"列"由制表符分隔)(> 300,000行)从一个月的过程中,有几个列值包括日期/时间和唯一的ID代码。
每天都会使用每个ID代码的几个实例,我需要输出每月每天的唯一ID数。
到目前为止,我将文本doc导入为2d数组。我有一个函数可以输出在给定时间段内使用的唯一ID列表,但我还没有想出如何在'表格中选择特定日期。
有关信息,日期/时间值的格式为" DD / MM / YYYY hh:mm:ss"。以下是我的代码示例。
感谢您花时间阅读。
Array1 = np.genfromtxt('*Path*', delimiter="\t", dtype=(str))
def Unique_ID_Func():
#Take the IDs column from the 2D array and turn it into a list.
List_of_IDs = Array1[:,7].tolist()
#Create a second list to input all of the unique IDs. Run through the first list and if the value is not already in the second list, add it in.
Unique_IDs = []
for IDs in List_of_IDs:
if IDs not in Unique_IDs:
Unique_IDs.append(IDs)
#print Unique_IDs
print "The number of Unique IDs is ", len(Unique_IDs)