如何将字符串从csv转换为Apache Spark MLlib

时间:2016-03-03 19:05:09

标签: java apache-spark apache-spark-mllib

我想从CSV加载数据并准备在Java上的Apache Spark上使用多类分类或回归MLlib算法。现在我的CSV有3列:

id,main_user,users
1,bob,"bob,charlie,lee,john"
1,grorge,"george,charlie,smith"
2,harvey,"harvey,marley,bob"
2,smith,"smith,name1,name2"
3,william,"william,charlie,george"
3,.....etc...

如何最好地改变字符串?第1栏和第2栏。 我会感激任何一个例子。

1 个答案:

答案 0 :(得分:0)

您可以在这里找到三种语言的示例

https://spark.apache.org/docs/latest/ml-features.html#tf-idf-hashingtf-and-idf

你必须创建特征向量。 “然后我们的特征向量可以传递给学习算法。”

希望有所帮助