这是我正在研究的训练集的前5个示例。我应该预测该用户对测试集中其他喜剧的评分。
这是测试集的外观,但没有评分:
所以我有几个问题:
1。将笑话标识符分为喜剧演员和位置的最佳方法是什么?例如,Klint De Drunk是喜剧演员,Enugu 1是位置
谢谢
Viewers_ID Joke_identifier Response_ID Rating
0 A1 Klint De Drunk Enugu 1 A1_Klint De Drunk Enugu 1 0.11
1 A1 Klint De Drunk Enugu 2 A1_Klint De Drunk Enugu 2 -4.64
2 A1 Klint De Drunk PH 1 A1_Klint De Drunk PH 1 -3.39
3 A1 Klint De Drunk PH 2 A1_Klint De Drunk PH 2 0.44
4 A1 Klint De Drunk Lagos 1 A1_Klint De Drunk Lagos 1 -4.83
5 A1 Klint De Drunk Lagos 2 A1_Klint De Drunk Lagos 2 -4.52
答案 0 :(得分:1)
对于点1:
使用:
df['Joke_identifier_new'] = df['Joke_identifier'].str.rsplit(n=2).str[0]
df['location'] = df['Joke_identifier'].str.rsplit(n=2).str[1:].str.join(' ')
print(df)
但是,您应该为拆分创建一个新列,不要将其分配回去,因为第二个代码不会产生期望的结果。然后,您可以根据需要删除原始列。