我有一个包含IMDB电影评级数据的csv文件。该文件有27个功能和1个目标变量。我附上了SampleData。此外,数据集可以从KaggleData下载。 我了解到python的 sklearn 包需要所有数据都是数字。那么如何使用这些数据进行回归分析呢? 现在我使用了下面的代码,但它说"一些导演名字"无法转换为浮动。
import pandas as pd
from sklearn.linear_model import LinearRegression
df = pd.read_csv('D:\Machine Learning\Final\movie_metadata.csv')
feature_cols = [
"director_facebook_likes",
"cast_total_facebook_likes",
"movie_facebook_likes",
"facenumber_in_poster",
"gross",
"num_critic_for_reviews",
"num_voted_users",
"num_user_for_reviews",
"duration",
"title_year",
"content_rating",
"budget",
"director_name"]
X = df[feature_cols]
y = df.imdb_score
lm = LinearRegression()
lm.fit(X, y)
print (lm.intercept_)
print (lm.coef_)
答案 0 :(得分:0)
最简单的是pd.get_dummies()。您可能还会遇到一个热门编码。