我刚接触Spark和StackOverFlow社区的编程。尝试使用Cloudera QuickStart VM中的Spark获取数据子集。在附加的快照中,您将看到使用以下代码输出的20条记录:
channel_views.take(20)
此处,channel_views
是包含数百条记录的RDD。我试图仅对那些包含单词' XYZ'和相应的数值。我如何实现这一目标?
提前致谢。
答案 0 :(得分:1)
channel_views.filter(lambda x: "XYZ" == x[1]) # Exact matches
或
channel_views.filter(lambda x: "XYZ" in x[1]) # XYZ in the value