我有两个单独的csv文件,我读入了pandas数据帧。我已经做了一些清理工作并按日期列加入了表格。我还有一个名为' ExerciseTime'并且将进行的时间运动时间格式转换为浮动格式,即22:30:00(晚上10:30)至22.5(浮动值)。
我希望通过比较一天的运动时间和睡眠质量来进行训练/测试分裂分析(这是我的Garmin连接数据和睡眠周期数据)。目前几乎没有准确性/相关性,但我怀疑我是否进行了练习时间'列按小时变为虚拟变量可能有所帮助。我想要将列中的所有值转换为整数值(向上和向下舍入),并希望忽略任何有空值的实例(我没有锻炼的天数)。我使用以下公式时遇到错误:
JoinedTables = JoinedTables[JoinedTables.ExerciseTime.astype(int)]
忽略空值并将浮点值转换为整数的最佳方法是什么?
此外,如果有人知道在这类数据上使用的最佳类型模型预测器,我会很感激任何想法,因为我还是新手。我有其他数据点,例如"总运动持续时间","如果我在睡前饮用酒精","那天的运动类型","月相那天"我也想加入,看看是否对我的睡眠质量有任何统计学上的显着影响。
答案 0 :(得分:0)
pd.to_numeric(col, errors='coerce')应该这样做:
JoinedTables['ExerciseTime'] = pd.to_numeric(JoinedTables['ExerciseTime'], errors='coerce')