这是在Python中使用pandas的好例子吗?

时间:2015-11-18 20:36:22

标签: python pandas summarization

我正在用Python(和我在Linux上)对MSSQL进行数据库调用。 在最终完成所有deps之后,我的调用通常每次拉动大约1,000,000条记录。 (数据库详细说明问题,遇到的城市和解决方案)

记录集看起来像这样.....(我只包括相关列)

Description, City, Solution
Won't Start, Denver, Replace Spark Plugs
Won't Start, Chicago, Add Gas
Light Out, Denver, Replace Bulb
Flat Tire, New York, Change Tire
...
...

我需要做的是统计独特的描述,并在每个描述下计算独特城市和城市以下的独特解决方案。

我是Python的相对新手(但我喜欢它,我实现它越多),并且在过去使用其他语言,我可能会将整个记录集导出到SQLite,然后使用标准SQL进行汇总。

对于大熊猫解决方案来说,这似乎只是一个解决方案,但由于我还在学习Python,因此缺乏对这种操作的最佳工具的知识有点缺乏。

那里有没有熊猫人可以参与这个话题,甚至可能指出我正确的方向? - JW

1 个答案:

答案 0 :(得分:1)

我无法在不知道您的数据(类型等)的样子的情况下提供代码示例。但我认为您使用set可以更好地为此服务,因为您只需要一组唯一数据。你的数量只是设定的长度。

为此,一套装置将比熊猫更快。