如何在R中自己的语料库上训练word2vec模型?

时间:2019-04-30 23:41:25

标签: r word2vec word-embedding natural-language-processing

我想使用R中的rword2vec包在自己的语料库上训练word2vec模型。

用于训练模型的word2vec函数需要一个train_file。 R中的软件包文档仅指出这是训练文本数据,但未指定如何创建。

可以在此处下载GitHub示例中使用的培训数据: http://mattmahoney.net/dc/text8.zip。我不知道它是什么类型的文件。

我已经浏览了rword2vec GitHub page上的README文件,并查看了Google Code上的word2vec官方页面。

我的语料库是一个.csv文件,包含约68,000个文档。文件大小约为300MB。我意识到在这种规模的语料库上训练模型可能会花费很长时间(或不可行),但是我愿意在语料库的子集上训练模型。我只是不知道如何创建该功能所需的train_file

1 个答案:

答案 0 :(得分:0)

解压缩text8后,可以使用文本编辑器将其打开。您会看到它是一个很长的文档。您将需要确定要用于培训的68,000个文档中有多少个,以及是否要将它们合并在一起以将它们保存为单独的文档。参见https://datascience.stackexchange.com/questions/11077/using-several-documents-with-word2vec