我想使用R中的rword2vec
包在自己的语料库上训练word2vec模型。
用于训练模型的word2vec
函数需要一个train_file
。 R中的软件包文档仅指出这是训练文本数据,但未指定如何创建。
可以在此处下载GitHub示例中使用的培训数据: http://mattmahoney.net/dc/text8.zip。我不知道它是什么类型的文件。
我已经浏览了rword2vec GitHub page上的README文件,并查看了Google Code上的word2vec官方页面。
我的语料库是一个.csv
文件,包含约68,000个文档。文件大小约为300MB。我意识到在这种规模的语料库上训练模型可能会花费很长时间(或不可行),但是我愿意在语料库的子集上训练模型。我只是不知道如何创建该功能所需的train_file
。
答案 0 :(得分:0)
解压缩text8后,可以使用文本编辑器将其打开。您会看到它是一个很长的文档。您将需要确定要用于培训的68,000个文档中有多少个,以及是否要将它们合并在一起以将它们保存为单独的文档。参见https://datascience.stackexchange.com/questions/11077/using-several-documents-with-word2vec