只在Python笔记本中选择[无行]列

时间:2018-05-06 17:02:42

标签: python pandas dataframe tokenize

我正在对笔记本中的非结构化数据进行一些分析 - 这些数据可以解释一列信息。我想把这个唯一的列拉出来并进行自然语言处理,以查看最常用的关键字和标记化。

当我在用户评论栏上应用我的单词标记器时,我要分析的文字:

text = df.loc[:, "User Reviews"]

行号包含在文本“用户评论”列中。

由于某些用户评论包含与行号相同的数字,因此分析会让人感到困惑,尤其是因为我正在应用标记化并查看术语频率。因此,在下面的示例中,行从1开始,然后2是下一行,然后是3,依此类推10K用户评论。

['1', 'great', 'cat', 'waiting', 'on', 'me', 'home', 'to', 'feed', 'love', 'fancy', 'feast',
 '2', 'my', '3', 'dogs', 'love', 'this', '3', 'So', 'bad', 'my', '4', 'dogs', 'threw', 'up', ...]

有办法做到这一点吗?我需要text.drop放弃行吗?我在这里查了几个来源:

https://www.shanelynn.ie/using-pandas-dataframe-creating-editing-viewing-data-in-python/

https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c

但仍在努力。

                                            User Reviews  
0  i think my puppy likes this. She seemed to keep...  
1  Its Great! My cat waiting on me to feed her. Fa...  
2  My 3 dogs love this so much. Wanted to get more...
3  All of my 4 dogs threw this up. Wouldnt ever re...  
4  I think she likes it. I gave it to her yesterda...  
5  Do not trust this brand, dog died 3 yrs ago aft...  
6  Tried and true dog food, never has issues with ...  

1 个答案:

答案 0 :(得分:0)

  

行号包含在文字"用户评论"列。

pd.Series对象包含值的数组以及相关的索引。如果不受特定操作的影响,该索引可能与"行号相符" - 但事实并非如此。

您的标记化逻辑似乎适用于值数组,而不是一系列。您可以使用pd.Series.values

提取基础numpy数组,其中只包含值
text = df.loc[:, "User Reviews"].values

numpy数组表示失去索引,只保留基础数据。