Question

我有一个<h1>Awesome Posts</h1> {{$posts := .}} <p>{{$posts}}</p> DataFrame，它由几行和几列组成。我对两栏特别感兴趣。请参见下面的示例。

pandas

假设我们的名单很长。我想通过学习UID Item Composition 1 Water Hydrogen,Oxygen 2 Sulfuric acid Hydrogen,Sulfur,Oxygen 3 Alcohol Spirit 4 Hydrochloric acid Hydrogen,Chloride 5 Citric Acid Hydrogen,Carbon, Oxygen列来预测Item列。请提出使用Composition库的最佳方法。

Answer 1

一种方法可能是使用sklearn库（决策树分类器），因为您只有很少的功能。组成将需要分开并编码为数值。我不是该领域的专家，您可以在这里和其他地方找到很多有关它的资源。它帮助我解决了与您类似的问题。只是一个建议。

Answer 2

感谢@ B.Malysz抽出宝贵的时间为我提供指导。我确实浏览了决策树并继续阅读大量材料，最后发现使用TF-IDF矢量化器，我能够构建可以解决此问题的逻辑。我能够从其组成中非常准确地预测项目。我还尝试使用LinearSVC，Randomforestclassifier或logisticregression进行测试，以查看哪种方法可以提供更好的预测结果。

不幸的是，我因提出这个问题而被一些人否决：（

熊猫-如何使用相邻列中的值预测另一列中的值

2 个答案: