Question

我刚接触Spark和StackOverFlow社区的编程。尝试使用Cloudera QuickStart VM中的Spark获取数据子集。在附加的快照中，您将看到使用以下代码输出的20条记录：

channel_views.take(20)

此处，channel_views是包含数百条记录的RDD。我试图仅对那些包含单词＆＃39; XYZ＆＃39;和相应的数值。我如何实现这一目标？

提前致谢。

Answer 1

channel_views.filter(lambda x: "XYZ" == x[1])  # Exact matches

或

channel_views.filter(lambda x: "XYZ" in x[1])  # XYZ in the value