我正在使用机器学习进行房价预测项目,并希望将其提交给私人公司进行申请。
我正在使用Jupiter笔记本进行此项目,但无法修复将字串转换为数字数据的错误
from sklearn.model_selection import train_test_split
X_train,X_test, Y_train, Y_test= train_test_split(X,
Y,
test_size=0.2,
random_state=0)
from sklearn.preprocessing import StandardScaler
independent_scalar = StandardScaler()
X_train = independent_scalar.fit_transform (X_train) #fit and transform
X_test = independent_scalar.transform (X_test) # only transform
print(X_train)
我希望训练集数据完全是数字
答案 0 :(得分:0)
我相信您的数据集中有字符串。 StandardScaler()仅采用数字数据并标准化值。
要将文本转换为数字数据,可以检出sklearn.feature_extraction.text
中的函数。根据您的数据,您可以检查出最合适的功能。 CountVectorizer
和TfidfVectorizer
是最常用的矢量化器。 CountVectorizer
基于单词袋算法,TfidfVectorizer
基于TF-IDF。
要知道要使用哪个函数,如果我们知道数据集的外观会更容易。