我偶然发现了这个示例代码,但是我在理解它的作用和含义上遇到了麻烦。对于某些背景信息,它是用于机器学习的,最终目标是训练几种分类模型,例如SVM,随机森林和KNN。
该代码使用glob从data set加载数据集,因为它包含多个文件。
我不理解的一行是第10行,outputs = [total_list[x][-14:-12] for x in range(0,len(total_list))]
变量outputs
将打印数据集中使用的气体名称。作为参考,文本文件名看起来像B1_GCO_F010_R1
。因此变量outputs
将在该位置存储"C0"
和所有字符。
我感到困惑的主要部分是[total_list[x][-14:-12]
。要进一步分解[-14:-12]
是最令人困惑的部分。如果有人可以告诉我第10行中的名称或该操作的名称,这将很有帮助,这样我就可以继续搜索。
我尝试搜索“列表”之类的单词,但这是Python中数组/列表的关键字。
我假设[-14:-12]
是针对文本文件名中气体名称的代码的一部分。
import glob
import os
import pandas as pd
import numpy as np
col_names = ["Time","S1","S2","S3","S4","S5","S6","S7","S8"]
#Determines outputs
total_list = glob.glob(os.path.join(os.getcwd(), "C:/Users/chang/EE257_ml/Datasets/data1/data1/", "*.txt"))
outputs = [total_list[x][-14:-12] for x in range(0,len(total_list))]
unique_outputs = []
for output in outputs:
if output not in unique_outputs:
unique_outputs.append(output)
time_index = np.arange(0, 600, .01)
tempds = pd.DataFrame(index = time_index) #creates a dummy data frame with a time index from 0 to 600 seconds .01 sec steps
time_index = np.arange(0, 300, 2.0)
ds = pd.DataFrame(index = time_index) #creates a dummy data frame with a time index from 0 to 600 seconds .01 sec steps
数据集是五个不同传感器的文本文件的列表,每个传感器包含十种不同浓度的四次重复的数据。但是,最后一局只有两次重复。
气体为CO,Ea,Ey和Me。因此,第10行创建了一个存储这四种气体的列表。