我正在尝试在作为数据框打开的Excel文件中使用NLTK word_tokenize。我想在其上使用word_tokenize的列包含句子。如何从数据框中提取该特定列以对其进行标记化?我要访问的列的名称称为“投诉/查询详细信息”。
import pandas as pd
from nltk import word_tokenize
file = "List of Complaints.xlsx"
df = pd.read_excel(file, sheet_name = "All Complaints" )
token = df["Complaint / Query Detail"].apply(word_tokenize)
我尝试了这种方法,但是我不断出错。
答案 0 :(得分:0)
尝试一下:
df['Complaint / Query Detail'] = df.apply(lambda row:
nltk.word_tokenize(row['Complaint / Query Detail']), axis=1)
答案 1 :(得分:-1)
这是用于标记数据框中的列的for循环。
这是您将DF放入yoru CSV文件的地方
def tokenize_text(df):
for columns in df.columns:
dataframe["tokenized_"+ columns] = dataframe.apply(lambda row: nltk.word_tokenize(row[columns]), axis=1)
return dataframe
print(df)
我希望这会有所帮助。