如何在数据框的单个列上使用Word令牌化(Python)

时间:2018-10-18 07:57:46

标签: python pandas dataframe nltk

我正在尝试在作为数据框打开的Excel文件中使用NLTK word_tokenize。我想在其上使用word_tokenize的列包含句子。如何从数据框中提取该特定列以对其进行标记化?我要访问的列的名称称为“投诉/查询详细信息”。

import pandas as pd
from nltk import word_tokenize

file = "List of Complaints.xlsx"

df = pd.read_excel(file, sheet_name = "All Complaints" )

token = df["Complaint / Query Detail"].apply(word_tokenize)

我尝试了这种方法,但是我不断出错。

2 个答案:

答案 0 :(得分:0)

尝试一下:

df['Complaint / Query Detail'] = df.apply(lambda row: 
    nltk.word_tokenize(row['Complaint / Query Detail']), axis=1)

答案 1 :(得分:-1)

这是用于标记数据框中的列的for循环。

这是您将DF放入yoru CSV文件的地方

def tokenize_text(df):
    for columns in df.columns:
        dataframe["tokenized_"+ columns] = dataframe.apply(lambda row: nltk.word_tokenize(row[columns]), axis=1)
    return dataframe

print(df)

我希望这会有所帮助。