我想从CSV加载数据并准备在Java上的Apache Spark上使用多类分类或回归MLlib算法。现在我的CSV有3列:
id,main_user,users
1,bob,"bob,charlie,lee,john"
1,grorge,"george,charlie,smith"
2,harvey,"harvey,marley,bob"
2,smith,"smith,name1,name2"
3,william,"william,charlie,george"
3,.....etc...
如何最好地改变字符串?第1栏和第2栏。 我会感激任何一个例子。
答案 0 :(得分:0)
您可以在这里找到三种语言的示例
https://spark.apache.org/docs/latest/ml-features.html#tf-idf-hashingtf-and-idf
你必须创建特征向量。 “然后我们的特征向量可以传递给学习算法。”
希望有所帮助