需要删除所有包含“线程”一词的行,例如文件中的一行显示为“匹配后线程:利物浦4-0巴塞罗那[agg上为4-3]”。
我尝试使用其他答案中提到的以下代码
df[~df.post_title.str.contains('Thread')]
但这似乎无济于事。其余代码在下面
import pandas as pd
from nltk.corpus import stopwords
import string
from nltk.stem import WordNetLemmatizer
import re
lemma = WordNetLemmatizer()
pd.read_csv('soccer.csv', encoding='utf-8')
df = pd.read_csv('soccer.csv')
df.columns = ['post_id', 'post_title', 'subreddit']
df[~df.post_title.str.contains('Thread')]
df.to_csv('clean_soccer2.csv', encoding='utf-8-sig')