RDD pyspark分裂电影年

时间:2017-12-13 23:43:05

标签: python csv pyspark

我有一个包含三列movie IDMovie nameGenres的csv文件。电影名称列还包含电影版本的年份,并放在括号内{{1} }。

我希望逐行读取csv作为RDD并从第二行解析年份。

简而言之,我想收集有关任何特定年份发布的电影数量的数据。随地吐痰操作后收集的输出如下所示。我想要计算以下列表中的所有(年份)

csv文件的示例行表示如下:

电影ID电影名称类型     1玩具总动员(1995)冒险|动画|儿童|喜剧|幻想

截至目前,我已将read csv文件映射为split功能:

()

moviez=sc.textFile("/FileStore/tables/movies.csv") year1=moviez.flatMap(lambda x: x.split(' ')).collect() 创建一个列表,其中电影年代ID为其元素之一(例如(1995))。 如何创建此列表中所有此类元素的计数(电影年份)?

year1

我非常感谢您对此事的任何指导和帮助。我正在[u'movieId,title,genres', u'1,Toy', u'Story', u'(1995),Adventure/Animation/Children/Comedy/Fantasy', u'2,Jumanji', u'(1995),Adventure/Children/Fantasy', u'3,Grumpier', u'Old', u'Men', u'(1995),Comedy/Romance', u'4,Waiting', u'to', u'Exhale', u'(1995),Comedy/Drama/Romance', u'5,Father', u'of', u'the', u'Bride', u'Part', u'II', u'(1995),Comedy' ] 平台上完成这项工作。

0 个答案:

没有答案