将纯文本文件加载到PyTorch中

时间:2019-03-18 07:25:21

标签: python nlp pytorch text-classification torchtext

我有两个单独的文件,一个是文本文件,每行是一个文本。另一个文件包含该相应行的类标签。如何将其加载到PyTorch中并进行进一步的标记化,嵌入等?

1 个答案:

答案 0 :(得分:1)

您已经尝试了什么?您所描述的仍然与PyTorch无关,您可以制作一个预处理脚本,将所有句子加载到单个结构化数据中,例如:(文本,标签)元组列表。您还可以将数据拆分为训练和在此步骤中设置保持时间。然后,您可以将所有这些内容转储到.csv文件中。

然后,一种方法是分3个步骤:

  • 实施类Dataset-高效加载数据,读取生成的.csv文件;
  • 还有一个类似 Vocabulary 的词,它可以保持从令牌到ID以及反之的映射;
  • 类似于 Vectorizer 的东西,它将您的句子转换为矢量,可以是一键热插入或嵌入;

然后,您可以使用它生成句子的矢量表示,并将其传递到神经网络。

查看此笔记本以更详细地了解所有内容: