我正在尝试使用python和数据分析。我收集了推文,统计了不同的用户,并根据他们的位置对它们进行了总结。然后我计算了每个国家人口的用户百分比。为了使我的图表看起来更好,我使用z-score公式对我的数据进行了标准化。现在我观察到我有一些破坏我的图的异常值,所以我将它们排除在外。我的问题是,我是否必须从原始数据集中排除它们然后重新标准化我的数据,或者只是从我的分析中排除标准化表格并继续我已计算的值是正确的吗?
答案 0 :(得分:0)
作为探索性数据分析(EDA)流程的一部分,您需要使用所有数据点可视化您的数据,识别异常值,然后进一步调查这些异常值以确定如何处理它们。这些异常值是否需要更正不准确的值?也许原始数据中的错误条目?或者它们是有效的数据点,可能指向一些有趣的东西?您还可以使用df.describe()
如果它们是错误,请在数据集中更正它们,不要删除它们。如果它们是准确的,有效的异常值,只需将它们从可视化中排除,以便更好地了解其余数据。这有帮助吗?