应用错误收集

时间：2019-04-30 23:41:25

标签： r word2vec word-embedding natural-language-processing

我想使用R中的rword2vec包在自己的语料库上训练word2vec模型。

用于训练模型的word2vec函数需要一个train_file。 R中的软件包文档仅指出这是训练文本数据，但未指定如何创建。

可以在此处下载GitHub示例中使用的培训数据： http://mattmahoney.net/dc/text8.zip。我不知道它是什么类型的文件。

我已经浏览了rword2vec GitHub page上的README文件，并查看了Google Code上的word2vec官方页面。

我的语料库是一个.csv文件，包含约68,000个文档。文件大小约为300MB。我意识到在这种规模的语料库上训练模型可能会花费很长时间（或不可行），但是我愿意在语料库的子集上训练模型。我只是不知道如何创建该功能所需的train_file。

答案 0 :(得分：0)

解压缩text8后，可以使用文本编辑器将其打开。您会看到它是一个很长的文档。您将需要确定要用于培训的68,000个文档中有多少个，以及是否要将它们合并在一起以将它们保存为单独的文档。参见https://datascience.stackexchange.com/questions/11077/using-several-documents-with-word2vec