在Spark中子集数据

时间:2016-01-02 18:11:30

标签: python apache-spark

我刚接触Spark和StackOverFlow社区的编程。尝试使用Cloudera QuickStart VM中的Spark获取数据子集。在附加的快照中,您将看到使用以下代码输出的20条记录:

channel_views.take(20)

此处,channel_views是包含数百条记录的RDD。我试图仅对那些包含单词' XYZ'和相应的数值。我如何实现这一目标?

提前致谢。

enter image description here

1 个答案:

答案 0 :(得分:1)

RDD.filter

channel_views.filter(lambda x: "XYZ" == x[1])  # Exact matches

channel_views.filter(lambda x: "XYZ" in x[1])  # XYZ in the value