如何从python中的文本数据中提取特征?

时间:2019-02-15 06:15:19

标签: database python-3.x machine-learning dataset

我正在尝试建立一种机器学习算法来根据人的脑电信号预测一个人在想的数字。我发现的数据集可以文本格式提供,并描述为- “数据以非常简单的文本格式存储,包括:

[id]:一个数字,仅供参考。

[event] id,一个整数,用于区分在不同的大脑位置捕获的相同事件,仅由多通道设备(除MW以外的所有设备)使用。

[device]:一个2字符串,用于标识用于捕获信号的设备,“ Mw”代表MindWave,“ EP”代表Emotive Epoc,“ MU”代表Interaxon Muse,“ IN”代表Emotiv Insight。 / p>

[channel]:一个字符串,用于标识信号的10/20大脑位置,可能的值:

MindWave“ FP1” EPOC“ AF3,” F7“,” F3“,” FC5“,” T7“,” P7“,” O1“,” O2“,” P8“,” T8“,” FC6“,” F4“,” F8 ”,“ AF4” 缪斯“ TP9,” FP1“,” FP2“,” TP10“ 洞察“ AF3”,“ AF4”,“ T7”,“ T8”,“ PZ”

[code]:一个整数,用于标识已考虑/看到的数字,对于不相关的随机捕获信号,可能的值为0、1、2、3、4、5、6、7、8、9或-1到任何数字。

[size]:一个整数,用于标识在此信号的2秒钟内捕获的值的大小,因为每个设备的Hz都不同,因此在“理论”中,MW的值接近512Hz,MW的值接近128Hz。 EP,每2秒持续MU的220Hz和IN的128Hz。

[数据]:用逗号分隔的一组数字,具有信号的时间序列幅度,每个设备使用不同的精度来识别从大脑捕获的电势:对于MW&MU或实数表示整数对于EP&IN,则为数字。

文件中没有标题,每一行都是一个信号,并且各字段之间用制表符分隔” 如何处理这些数据(绘制数据,在其上训练不同的模型)?我应该将其转换为其他格式吗?如果是,那么如何? 数据集的链接-http://www.mindbigdata.com/opendb/MindBigData-MW-v1.0.zip

我已经将一个csv文件用于类似的ml项目,但不知道如何使用该文件,因为在每个信号的数据之前都有一个单独的标题,我该如何提取这些信号

1 个答案:

答案 0 :(得分:0)

这些字段是制表符分隔的,您只需要 [code](数字)或第5个字段,而[data]第7个字段(一旦将其提取,将被分隔)