我有一个很大的Twitter数据集,在csv文件中有大约300万个@mention记录。我还有数据集中提到的人的用户名。我想从这里创建一个单独的数据集,其中包含3列1)人的用户名为@ submitted 2)谁是@mentioning 3)该用户被@提及的次数。我知道逐个浏览庞大的数据集会非常耗时。是否有其他简短的方法或软件来筛选数据并尽快产生结果。
答案 0 :(得分:0)
要求软件推荐是StackOverflow的主题。我的建议是使用Python!
问题的核心:
由于您的数据是CSV文件而不是带索引的数据库,因此执行必须逐行执行此操作。
开始使用,编写程序逐行读取此文件并生成所需的输出格式。