我正在尝试使用SparkR进行LDA主题分析。我不确定输入文件的格式是什么。
我在R中创建了一个已清理的文本文件(我正在使用20个新闻组)。我将其保存为CSV,然后使用read.df
读取它以获得SparkDataFrame:
df <- read.df("text.example.csv", "csv", header=FALSE, inferSchema = "true")
但是,当我运行spark.lda
时:
model <- spark.lda(df, k = 10, maxIter = 500, optimizer="online")
我收到错误:
16/12/30 18:51:37 ERROR RBackendHandler: fit on org.apache.spark.ml.r.LDAWrapper failed
java.lang.reflect.InvocationTargetException
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
(以及更多行),我猜是因为输入。
有谁知道如何在SparkR中成功运行LDA?