我已经熟悉了R中的一个新软件包,名为textTinyR,该软件包有助于从单词级嵌入创建文档级嵌入。为此,它需要将word_vectors.txt保存在本地系统/计算机中。想法是运行此程序并将结果用于主要用于社交媒体的文本聚类。在运行此程序包的Doc2Vec方法之前,已经考虑了预处理的某些方面(包括单词矢量创建-使用text2vec的Glove方法完成)。
以下代码段用于此任务,所有计算均在指定的工作目录中完成:
write.table(word_vectors, file = "word_vectors.txt", sep = " ", row.names = TRUE, quote = FALSE, col.names = FALSE)
doc_vectors <- Doc2Vec$new(token_list = list(tokens3), word_vector_FILE = "word_vectors.txt", print_every_rows = 5000, verbose = FALSE, copy_data = FALSE)
但是,最后一行会导致错误:
reduce_word_vectors(self $ word_vector_FILE,private $ unq_tok, :需要一个字符串向量:[type = list; required = STRSXP]。
我尝试了几种其他的指定路径的方式,这些方式将以下内容传递给Doc2Vec方法的word_vector_FILE参数,但它们也会导致相同的错误:
我还将word_vector文件保存在textTinyR文件夹中(如其文档所示)(并且有一个虚拟的word_vec.txt文件,并使用了以下命令:PATH = system.file(“ example_files”,“ word_vectors.txt”,package = “ textTinyR”),并将此文件路径传递给Doc2Vec方法,但错误仍然存在。
可以从以下链接下载示例单词矢量文件: https://wetransfer.com/downloads/dfcf7443c2ed8c4e2dfbf0825db46c2520180903100757/43efc66c2259c00419390c54e8bf1c8220180903100757/8ccc94
有人可以分享有关如何确保正确读取文件的建议吗?感谢您的提前输入。