Question

我正在用Python（和我在Linux上）对MSSQL进行数据库调用。在最终完成所有deps之后，我的调用通常每次拉动大约1,000,000条记录。（数据库详细说明问题，遇到的城市和解决方案）

记录集看起来像这样.....（我只包括相关列）

Description, City, Solution
Won't Start, Denver, Replace Spark Plugs
Won't Start, Chicago, Add Gas
Light Out, Denver, Replace Bulb
Flat Tire, New York, Change Tire
...
...

我需要做的是统计独特的描述，并在每个描述下计算独特城市和城市以下的独特解决方案。

我是Python的相对新手（但我喜欢它，我实现它越多），并且在过去使用其他语言，我可能会将整个记录集导出到SQLite，然后使用标准SQL进行汇总。

对于大熊猫解决方案来说，这似乎只是一个解决方案，但由于我还在学习Python，因此缺乏对这种操作的最佳工具的知识有点缺乏。

那里有没有熊猫人可以参与这个话题，甚至可能指出我正确的方向？ - JW

Answer 1

我无法在不知道您的数据（类型等）的样子的情况下提供代码示例。但我认为您使用set可以更好地为此服务，因为您只需要一组唯一数据。你的数量只是设定的长度。

为此，一套装置将比熊猫更快。

这是在Python中使用pandas的好例子吗？

1 个答案: