对象'customer_profiling_vars'是一个数据框,仅具有通过聚类算法(RSKC)选择的变量,如R代码下方的R输出所示:
customer_profiling_vars
customer_profiling_vars$Variables
现在,我只想使用dplyr的'select'从数据框'customer_profiling_vars'中选择上述变量向量中的数据集sc_df_tr_dummified 中的那些变量:
customer_df_interprete = sc_df_tr_dummified %>%
select(customer_profiling_vars$Variables)
glimpse(customer_df_interprete)
我希望选择变量“ SalePrice”。
但是选择了其他一些非常奇怪的变量('PoolArea.576')
可以肯定的是,我尝试直接使用SalePrice而不是customer_profiling_vars $ Variables,它给出了我想要的:
选择dplyr有什么问题?对我来说,似乎与'customer_profiling_vars $ Variables'的因子性质有关:
谢谢!