Question

我正在使用机器学习进行房价预测项目，并希望将其提交给私人公司进行申请。

我正在使用Jupiter笔记本进行此项目，但无法修复将字串转换为数字数据的错误

from sklearn.model_selection import train_test_split
X_train,X_test, Y_train, Y_test= train_test_split(X,
                                              Y,
                                             test_size=0.2,
                                               random_state=0)
from sklearn.preprocessing import StandardScaler
independent_scalar = StandardScaler()
X_train = independent_scalar.fit_transform (X_train) #fit and transform
X_test = independent_scalar.transform (X_test) # only transform
print(X_train)

我希望训练集数据完全是数字

Answer 1

我相信您的数据集中有字符串。 StandardScaler（）仅采用数字数据并标准化值。

要将文本转换为数字数据，可以检出sklearn.feature_extraction.text中的函数。根据您的数据，您可以检查出最合适的功能。 CountVectorizer和TfidfVectorizer是最常用的矢量化器。 CountVectorizer基于单词袋算法，TfidfVectorizer基于TF-IDF。

要知道要使用哪个函数，如果我们知道数据集的外观会更容易。

错误“无法将字符串转换为浮点数：'INLAND'”

1 个答案: