并行分配唯一ID

时间:2016-02-21 14:18:10

标签: csv apache-spark parallel-processing

我在spark中运行程序并打开CSV文件并并行创建实例。我的问题与下面的代码段相似(来自http://spark.apache.org/docs/latest/sql-programming-guide.html)。

JavaRDD<Person> people = sc.textFile("examples/src/main/resources/people.txt").map(
  new Function<String, Person>() {
    public Person call(String line) throws Exception {
      String[] parts = line.split(",");

      Person person = new Person();
      person.setName(parts[0]);
      person.setAge(Integer.parseInt(parts[1].trim()));

      return person;
      }
    }
);

如果我想为所有这些人分配唯一的ID,那么我将如何进行,因为它是并行完成的?

0 个答案:

没有答案