熊猫-如何使用相邻列中的值预测另一列中的值

时间:2018-08-17 10:41:34

标签: python python-3.x pandas machine-learning prediction

我有一个 <h1>Awesome Posts</h1> {{$posts := .}} <p>{{$posts}}</p> DataFrame,它由几行和几列组成。我对两栏特别感兴趣。请参见下面的示例。

pandas

假设我们的名单很长。我想通过学习 UID Item Composition 1 Water Hydrogen,Oxygen 2 Sulfuric acid Hydrogen,Sulfur,Oxygen 3 Alcohol Spirit 4 Hydrochloric acid Hydrogen,Chloride 5 Citric Acid Hydrogen,Carbon, Oxygen 列来预测Item列。请提出使用Composition库的最佳方法。

2 个答案:

答案 0 :(得分:0)

一种方法可能是使用sklearn库(决策树分类器),因为您只有很少的功能。组成将需要分开并编码为数值。我不是该领域的专家,您可以在这里和其他地方找到很多有关它的资源。它帮助我解决了与您类似的问题。只是一个建议。

答案 1 :(得分:0)

感谢@ B.Malysz抽出宝贵的时间为我提供指导。我确实浏览了决策树并继续阅读大量材料,最后发现使用TF-IDF矢量化器,我能够构建可以解决此问题的逻辑。我能够从其组成中非常准确地预测项目。我还尝试使用LinearSVC,Randomforestclassifier或logisticregression进行测试,以查看哪种方法可以提供更好的预测结果。

不幸的是,我因提出这个问题而被一些人否决:(