我正在用Python(和我在Linux上)对MSSQL进行数据库调用。 在最终完成所有deps之后,我的调用通常每次拉动大约1,000,000条记录。 (数据库详细说明问题,遇到的城市和解决方案)
记录集看起来像这样.....(我只包括相关列)
Description, City, Solution
Won't Start, Denver, Replace Spark Plugs
Won't Start, Chicago, Add Gas
Light Out, Denver, Replace Bulb
Flat Tire, New York, Change Tire
...
...
我需要做的是统计独特的描述,并在每个描述下计算独特城市和城市以下的独特解决方案。
我是Python的相对新手(但我喜欢它,我实现它越多),并且在过去使用其他语言,我可能会将整个记录集导出到SQLite,然后使用标准SQL进行汇总。
对于大熊猫解决方案来说,这似乎只是一个解决方案,但由于我还在学习Python,因此缺乏对这种操作的最佳工具的知识有点缺乏。
那里有没有熊猫人可以参与这个话题,甚至可能指出我正确的方向? - JW
答案 0 :(得分:1)
我无法在不知道您的数据(类型等)的样子的情况下提供代码示例。但我认为您使用set可以更好地为此服务,因为您只需要一组唯一数据。你的数量只是设定的长度。
为此,一套装置将比熊猫更快。