我得到了这个示例数据集,其中包含成千上万的行。 我需要训练一个基于其他5个值预测价格值的模型。
我是python的新手,我将python 3.6和Jupyter一起使用。
在其他项目中,我能够预测值,但所有单元格都能预测数字。
我该如何使用前两列之类的字母数字值呢?
然后,当已经训练好模型/网络后,我想输入5个值,并且该脚本将返回一个预测的价格作为输出。
答案 0 :(得分:0)
我同意乔丹的上述回答。不确定使用哪种工具进行建模,但是在python中,您可以处理以下情况:
如果字母数字字段是类别(不是唯一的重复值),则必须创建虚拟变量。 请参阅:https://towardsdatascience.com/the-dummys-guide-to-creating-dummy-variables-f21faddb1d40
如果它们不是分类的,那么您必须使用您的领域知识来从这些列中提取特征。