Question

我有一个包含三列movie ID，Movie name和Genres的csv文件。电影名称列还包含电影版本的年份，并放在括号内{{1} }。

我希望逐行读取csv作为RDD并从第二行解析年份。

简而言之，我想收集有关任何特定年份发布的电影数量的数据。随地吐痰操作后收集的输出如下所示。我想要计算以下列表中的所有（年份）

csv文件的示例行表示如下：

电影ID电影名称类型 1玩具总动员（1995）冒险|动画|儿童|喜剧|幻想

截至目前，我已将read csv文件映射为split功能：

()

moviez=sc.textFile("/FileStore/tables/movies.csv") year1=moviez.flatMap(lambda x: x.split(' ')).collect()创建一个列表，其中电影年代ID为其元素之一（例如（1995））。如何创建此列表中所有此类元素的计数（电影年份）？

year1

我非常感谢您对此事的任何指导和帮助。我正在[u'movieId,title,genres', u'1,Toy', u'Story', u'(1995),Adventure/Animation/Children/Comedy/Fantasy', u'2,Jumanji', u'(1995),Adventure/Children/Fantasy', u'3,Grumpier', u'Old', u'Men', u'(1995),Comedy/Romance', u'4,Waiting', u'to', u'Exhale', u'(1995),Comedy/Drama/Romance', u'5,Father', u'of', u'the', u'Bride', u'Part', u'II', u'(1995),Comedy' ]平台上完成这项工作。

RDD pyspark分裂电影年

0 个答案: