是否有可能看到pytorchtext.data.Tabulardataset的读取数据?

时间:2018-07-05 03:36:05

标签: python machine-learning pytorch torchtext

train, test = data.TabularDataset.splits(path="./data/", train="train.csv",test="test.csv",format="csv",fields=[("Tweet",TEXT), ("Affect Dimension",LABEL)])

我有这段代码,想评估一下,是否加载的数据正确或实际文本字段使用的列是否错误等。

如果我的文件的“文本”列为“ Tweet”,而“类”名称为“ Affect Dimension”,是否正确地将其放在字段部分?

编辑:TabularDataset包含一个Example对象,可以在其中读取数据。读取csv文件时,仅接受“,”作为分隔符。其他一切都会导致数据损坏。

1 个答案:

答案 0 :(得分:1)

您可以放置​​任何字段名称,而不管文件的内容如何。另外,我建议不要在字段名称中使用空格。

因此,将Affect Dimension重命名为Affect_Dimension或任何方便的名称。

然后,您可以遍历如下所示的不同字段以检查读取的数据。

for i in train.Tweet:
    print i
for i in train.Affect_Dimension:
    print i

for i in test.Tweet:
    print i
for i in test.Affect_Dimension:
    print i