将预先保存的单词向量的文件路径与textTinyR(Doc2Vec)结合使用

时间:2018-09-03 10:16:22

标签: r word2vec doc2vec

我已经熟悉了R中的一个新软件包,名为textTinyR,该软件包有助于从单词级嵌入创建文档级嵌入。为此,它需要将word_vectors.txt保存在本地系统/计算机中。想法是运行此程序并将结果用于主要用于社交媒体的文本聚类。在运行此程序包的Doc2Vec方法之前,已经考虑了预处理的某些方面(包括单词矢量创建-使用text2vec的Glove方法完成)。

以下代码段用于此任务,所有计算均在指定的工作目录中完成:

write.table(word_vectors, file = "word_vectors.txt", sep = " ", row.names = TRUE, quote = FALSE, col.names = FALSE)

doc_vectors <- Doc2Vec$new(token_list = list(tokens3), word_vector_FILE = "word_vectors.txt", print_every_rows = 5000, verbose = FALSE, copy_data = FALSE)

但是,最后一行会导致错误:

  

reduce_word_vectors(self $ word_vector_FILE,private $ unq_tok,   :需要一个字符串向量:[type = list; required = STRSXP]。

我尝试了几种其他的指定路径的方式,这些方式将以下内容传递给Doc2Vec方法的word_vector_FILE参数,但它们也会导致相同的错误:

  1. word_vector_FILE = paste(c('..','/ Doc2Vec /','word_vectors.vec'),
  2. word_vector_FILE =“ word_vectors.txt”。

我还将word_vector文件保存在textTinyR文件夹中(如其文档所示)(并且有一个虚拟的word_vec.txt文件,并使用了以下命令:PATH = system.file(“ example_files”,“ word_vectors.txt”,package = “ textTinyR”),并将此文件路径传递给Doc2Vec方法,但错误仍然存​​在。

可以从以下链接下载示例单词矢量文件: https://wetransfer.com/downloads/dfcf7443c2ed8c4e2dfbf0825db46c2520180903100757/43efc66c2259c00419390c54e8bf1c8220180903100757/8ccc94

有人可以分享有关如何确保正确读取文件的建议吗?感谢您的提前输入。

0 个答案:

没有答案