我有一个包含三列movie ID
,Movie name
和Genres
的csv文件。电影名称列还包含电影版本的年份,并放在括号内{{1} }。
我希望逐行读取csv作为RDD并从第二行解析年份。
简而言之,我想收集有关任何特定年份发布的电影数量的数据。随地吐痰操作后收集的输出如下所示。我想要计算以下列表中的所有(年份)
csv文件的示例行表示如下:
电影ID电影名称类型 1玩具总动员(1995)冒险|动画|儿童|喜剧|幻想
截至目前,我已将read csv文件映射为split功能:
()
moviez=sc.textFile("/FileStore/tables/movies.csv")
year1=moviez.flatMap(lambda x: x.split(' ')).collect()
创建一个列表,其中电影年代ID为其元素之一(例如(1995))。
如何创建此列表中所有此类元素的计数(电影年份)?
year1
我非常感谢您对此事的任何指导和帮助。我正在[u'movieId,title,genres',
u'1,Toy', u'Story', u'(1995),Adventure/Animation/Children/Comedy/Fantasy',
u'2,Jumanji', u'(1995),Adventure/Children/Fantasy',
u'3,Grumpier', u'Old', u'Men', u'(1995),Comedy/Romance',
u'4,Waiting', u'to', u'Exhale', u'(1995),Comedy/Drama/Romance',
u'5,Father', u'of', u'the', u'Bride', u'Part', u'II', u'(1995),Comedy'
]
平台上完成这项工作。