我正在一个学校的ML项目中检测垃圾短信,所以我有我的数据集,我现在的问题是能够使用遗传算法从数据集中选择特征,我真的不知道该如何实现,并且必须根据项目说明进行操作,请给我帮助。
import string
from nltk.corpus import stopwords
def textPreProcess(text):
punctuationsToNone = str.maketrans('', '', string.punctuation)
text = text.translate(punctuationsToNone)
text = [word for word in text.split() if word.lower() not in stopwords.words("english")]
return " ".join(text)
从nltk.stem导入SnowballStemmer 导入NLTK nltk.download(“停用词”)
def词干(文字): 单词=地图(lambda t:SnowballStemmer(英语).stem(t),text.split()) 返回“” .join(words)
texts = sms ['message']。copy()
# And apply the pre-processing methods to the new DataFrame
texts = texts.apply(textPreProcess)
texts = texts.apply(stemming)
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer("english")
features = vectorizer.fit_transform(texts)
这是我在功能选择方面的进步,但是我认为做错了事。