我有两个单独的文件,一个是文本文件,每行是一个文本。另一个文件包含该相应行的类标签。如何将其加载到PyTorch中并进行进一步的标记化,嵌入等?
答案 0 :(得分:1)
您已经尝试了什么?您所描述的仍然与PyTorch无关,您可以制作一个预处理脚本,将所有句子加载到单个结构化数据中,例如:(文本,标签)元组列表。您还可以将数据拆分为训练和在此步骤中设置保持时间。然后,您可以将所有这些内容转储到.csv文件中。
然后,一种方法是分3个步骤:
然后,您可以使用它生成句子的矢量表示,并将其传递到神经网络。
查看此笔记本以更详细地了解所有内容: