我有一个如下所示的数据集,在实际情况中,行数会在10000到1000000之间。 会有更多专栏,但核心问题围绕着这两个领域。
我知道类别 - ' Apple',' Blueberry' Orange''生菜'
DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit'
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a muffin',
'Tastes yummy','Like it with
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my
basket','Like it in a muffin','I like it it with salami','Comes from
Mexico']})
我必须在类别
上使用groupby创建一个或多个指标当类别列的单元格值未知时,我需要阅读“详细信息”中的文本。并预测最适合类别的标签。 例如
我是数据科学算法的新手,寻找一些指导来确定解决问题的正确模型。
答案 0 :(得分:0)
使用Naive Bayes作为Details列,之后对Category列进行简单过滤并删除具有已知类别值的行。