我尝试使用引发1.1.0提供的新TFIDF算法。我正在用Java编写我的MLLib工作,但我无法弄清楚如何使TFIDF实现工作。由于某些原因,IDFModel仅接受JavaRDD作为方法transform的输入,而不是简单的Vector。 如何使用给定的类为我的LabledPoints建模TFIDF向量?
注意:文档行的格式为[Label;文本]
到目前为止我的代码:
// 1.) Load the documents
JavaRDD<String> data = sc.textFile("/home/johnny/data.data.new");
// 2.) Hash all documents
HashingTF tf = new HashingTF();
JavaRDD<Tuple2<Double, Vector>> tupleData = data.map(new Function<String, Tuple2<Double, Vector>>() {
@Override
public Tuple2<Double, Vector> call(String v1) throws Exception {
String[] data = v1.split(";");
List<String> myList = Arrays.asList(data[1].split(" "));
return new Tuple2<Double, Vector>(Double.parseDouble(data[0]), tf.transform(myList));
}
});
tupleData.cache();
// 3.) Create a flat RDD with all vectors
JavaRDD<Vector> hashedData = tupleData.map(new Function<Tuple2<Double,Vector>, Vector>() {
@Override
public Vector call(Tuple2<Double, Vector> v1) throws Exception {
return v1._2;
}
});
// 4.) Create a IDFModel out of our flat vector RDD
IDFModel idfModel = new IDF().fit(hashedData);
// 5.) Create Labledpoint RDD with TFIDF
???
来自Sean Owen的解决方案 :
// 1.) Load the documents
JavaRDD<String> data = sc.textFile("/home/johnny/data.data.new");
// 2.) Hash all documents
HashingTF tf = new HashingTF();
JavaRDD<LabeledPoint> tupleData = data.map(v1 -> {
String[] datas = v1.split(";");
List<String> myList = Arrays.asList(datas[1].split(" "));
return new LabeledPoint(Double.parseDouble(datas[0]), tf.transform(myList));
});
// 3.) Create a flat RDD with all vectors
JavaRDD<Vector> hashedData = tupleData.map(label -> label.features());
// 4.) Create a IDFModel out of our flat vector RDD
IDFModel idfModel = new IDF().fit(hashedData);
// 5.) Create tfidf RDD
JavaRDD<Vector> idf = idfModel.transform(hashedData);
// 6.) Create Labledpoint RDD
JavaRDD<LabeledPoint> idfTransformed = idf.zip(tupleData).map(t -> {
return new LabeledPoint(t._2.label(), t._1);
});
答案 0 :(得分:11)
IDFModel.transform()
接受JavaRDD
或RDD
Vector
。在单个Vector
上计算模型是没有意义的,所以这不是你正在寻找的那个吗?
我假设您使用的是Java,因此您的意思是要将其应用于JavaRDD<LabeledPoint>
。 LabeledPoint
包含Vector
和标签。 IDF不是分类器或回归器,因此它不需要标签。您可以map
一堆LabeledPoint
来提取他们的Vector
。
但你上面已经有JavaRDD<Vector>
了。 TF-IDF仅仅是基于语料库中的词频将单词映射到实值特征的一种方式。它也不输出标签。也许你的意思是你想要从TF-IDF衍生的特征向量和你已经拥有的其他一些标签开发分类器?
也许这样可以解决问题,但除此之外,你必须大大澄清你想用TF-IDF实现的目标。