我需要使用Python处理一个相当大的.css(至少1000万行,数百列)。我想:
鉴于这些先决条件,您能否提出一些建议?我想过用熊猫。我还考虑过将csv转储到SQLite数据库中(因为如果我编写用户界面,可能更容易查询)。但这是我第一次涉足这个世界,所以我不知道从哪里开始。我没有太多时间,但如果你能提供一些建议,一些好的(和新的)东西等等,有趣的库等等,我会很高兴的。很抱歉,如果Stackoverflow不是要求此类帮助的最佳位置。如果需要,我会删除帖子。问候。
答案 0 :(得分:1)
有两种不同的情况:
另一种选择可能是使用专门的OLAP数据库,如Yandex ClickHouse - 您可以使用它直接使用SQL查询CSV文件(table engine = FILE)或将CSV导入其列存储。使用GROUP BY查询时,此数据库非常快速(它可以在< 1s中处理10M行)。
答案 1 :(得分:1)
给xsv一个机会。速度适中,非常方便。它适用于Unix哲学。但是,如果数据集的使用次数超过十次,我建议将csv转换为某种二进制格式,而ClickHouse则是一个很好的选择。