将文本数据转换为垃圾邮件分类的SVMFile格式?

时间:2018-01-05 21:48:37

标签: apache-spark machine-learning bigdata apache-spark-mllib

如何将文本数据转换为LibSVM文件格式以训练模型以进行垃圾邮件分类。 SVMFiles已经标记过吗?

1 个答案:

答案 0 :(得分:0)

SVM格式既不是必需的,也不是有用的。它在Apache Spark ML示例中使用,只是因为它可以直接映射到所需的格式。

  

SVMFiles是否已标记过?

不一定,但Spark只能读取标记的变体。

实际上,您应该使用org.apache.spark.ml.feature工具从数据中提取相关功能。

您可以关注the documentation以及有关SO。,

的一些问题