我在spark中运行程序并打开CSV文件并并行创建实例。我的问题与下面的代码段相似(来自http://spark.apache.org/docs/latest/sql-programming-guide.html)。
JavaRDD<Person> people = sc.textFile("examples/src/main/resources/people.txt").map(
new Function<String, Person>() {
public Person call(String line) throws Exception {
String[] parts = line.split(",");
Person person = new Person();
person.setName(parts[0]);
person.setAge(Integer.parseInt(parts[1].trim()));
return person;
}
}
);
如果我想为所有这些人分配唯一的ID,那么我将如何进行,因为它是并行完成的?