Question

我和Pandas和NLTK有一些问题。我是编程新手，所以如果我提出可能很容易解决的问题，请原谅。我有一个csv文件，它有3列（Id，Title，Body）和大约15.000行。

我的目标是从此csv文件中删除停用词。小写和拆分操作运行良好。但我无法找到我的错误，为什么停用词不会被删除。我错过了什么？

    import pandas as pd
    from nltk.corpus import stopwords

    pd.read_csv("test10in.csv", encoding="utf-8") 

    df = pd.read_csv("test10in.csv") 

    df.columns = ['Id','Title','Body']
    df['Title'] = df['Title'].str.lower().str.split()  
    df['Body'] = df['Body'].str.lower().str.split() 


    stop = stopwords.words('english')

    df['Title'].apply(lambda x: [item for item in x if item not in stop])
    df['Body'].apply(lambda x: [item for item in x if item not in stop])

    df.to_csv("test10out.csv")

Answer 1

你正在尝试进行原地替换。你应该做的

{{ date | format: 'MMMM' }}

Answer 2

String s = new String(m_buffer.array());

使用NLTK和Pandas删除停用词

2 个答案: