错误“无法将字符串转换为浮点数:'INLAND'”

时间:2019-03-25 06:34:00

标签: python machine-learning scikit-learn

我正在使用机器学习进行房价预测项目,并希望将其提交给私人公司进行申请。

我正在使用Jupiter笔记本进行此项目,但无法修复将字串转换为数字数据的错误

from sklearn.model_selection import train_test_split
X_train,X_test, Y_train, Y_test= train_test_split(X,
                                              Y,
                                             test_size=0.2,
                                               random_state=0)
from sklearn.preprocessing import StandardScaler
independent_scalar = StandardScaler()
X_train = independent_scalar.fit_transform (X_train) #fit and transform
X_test = independent_scalar.transform (X_test) # only transform
print(X_train)

我希望训练集数据完全是数字

1 个答案:

答案 0 :(得分:0)

我相信您的数据集中有字符串。 StandardScaler()仅采用数字数据并标准化值。

要将文本转换为数字数据,可以检出sklearn.feature_extraction.text中的函数。根据您的数据,您可以检查出最合适的功能。 CountVectorizerTfidfVectorizer是最常用的矢量化器。 CountVectorizer基于单词袋算法,TfidfVectorizer基于TF-IDF。

要知道要使用哪个函数,如果我们知道数据集的外观会更容易。