Question

因此，我仍然是熊猫和scikit学习的新手，并已进行了功课，以查找给定样本数据中的任何见解。我得到的唯一线索是，洞察力的一部分应该与机器学习有关。

检查数据后，它有很多不一致之处。这是一周的运输数据，其中包含2列，分别是地址和运输日期。地址栏数据不一致，我遇到了问题，这是示例：

+--------------------------------+--------------+
|           to_address           | booking_date |
+--------------------------------+--------------+
| 52426 E. La Palma, Anaheim, CA | 11-12-17     |
| 52511 Blvd, Avn. Californi     | 12-12-17     |
|                                | 13-12-17     |
| 600 S.Brookhurst UTAH          | 14-12-17     |
| 190 E.Stacy Rd.,Allen,Texas    | 15-12-17     |
| 1075 W. I-20, Tex              | 15-12-17     |
+--------------------------------+--------------+

如您所见，地址在地址输入中存在很多不一致之处。有些地址的状态可以用逗号分隔，有些则不能。一些地址具有完整的状态，一些地址缺少几个字符。地址列中还有空格和\ n格式。到目前为止，我一直在通过删除空格，从地址中删除\ n格式以及通过用逗号分隔地址栏并获取最后一个索引来创建状态栏来清理状态栏（tbh，由于键入不一致）。

我的问题是，我是否在正确的方向上清理数据？如何在此类数据中使用seaborn进行探索性数据分析以获得可能的见解？（我尝试使用预订日期的计数图，它显示12月12日至15日之间有很大的差距，这是真知灼见吗？）。它真的适用于机器学习分类算法吗？

任何有帮助的方向都非常好，谢谢。

Answer 1

机器学习任务不提供见解。您的任务是使用仅仅是工具的机器学习来提供见解。 ML不会告诉您使用哪种算法来回答您的问题，您应该先提出问题，然后选择哪种算法可以正确回答您的问题，通常有几种。

在您的情况下，您有2列，这是ML可以帮助您提供见解的限制，因为只有两个参数，而且输出清晰，这不是问题。例如流失或选举投票取决于各种参数。

据我所知，这些任务不需要ML即可提供见解，简单的统计模型就足够了。

可能会使您走上正轨的

我预订最多的时候是什么？
目的地和预订日期之间有关联吗？
哪个州订购最多？
西海岸订购的东西比东海岸多吗？
处于寒冷/炎热气候的国家订购更多吗？

由于只有2列，因此必须为to_address列创建其他数据。是西海岸还是东海岸？国家是富国还是穷国？依此类推，您创建的数据点越多，您将能够提供的有价值的见解越多。

高级：

您可以创建目的地的交互式图，并根据每天每个州的订单数对其进行着色。这将清楚地显示您的订单的处理方式。

洞察力是回答业务问题或提出新问题的任何事物。因此，说“大多数订单在加利福尼亚州”和“大多数订单在星期一处理”都是一种见识。这是很好的洞察力吗？这取决于您和企业。拥有您的数据，由于缺少更多数据，我预计不会有很多有价值的见解。

对于将来的参考，机器学习不应带来任何价值，通常统计数据就足够了。

编辑

您可以使用：

df['zipcode'] = df['to_address'].apply(lambda x:x.split(' ')[0])

要创建一个包含邮政编码的列。

寻找见解并应用机器学习流程

1 个答案: