在Python中使用文本进行特征提取的最佳方法是什么?

时间:2017-08-18 19:52:56

标签: python pandas text machine-learning

假设我在python中的一个系列中有一行包含值for (i, _) in myList.enumerated() { myList[i].title.append("\(myList[i].location.distance(from: location) / 1000)") } 。 我可以应用计数向量化器,但计数向量化器将返回A, B, C, A。我想要的是以下输出A -2, B-1, C-1。它应该只看到A存在并返回1。我怎么能这样做?

如何获取系列中唯一值的总数。就像第二行只有A-1, B-1, C-1一样。然后它应该返回B, D

让我们说这个系列的名字是4

第1行= df['a']所需输出 - A,B,C,A

第2行= A,B,C所需输出 - B,D,B

1 个答案:

答案 0 :(得分:1)

您可以通过以下方式获取系列中的独特项目:

df['a'].unique()

此外,您可以使用Series.value_counts

df['a'].value_counts()

这将返回系列中所有唯一值的计数。