我尝试创建一个像行星一样的python语言新闻聚合网站http://www.pythonmeme.com,我从G +和twitter等社交媒体中抓取python新闻,并通过一些python关键字抓取一些python feed。
但有些文章关于蛇的结果,我发现很难确定这些关于蛇的文章,我创建了一个过滤它的字典,但它不够好。
有更好的方法吗?
snack_dic = ['shoe', 'snake', 'nail', 'python hunter']
def is_snake(txt):
for dic in snack_dic:
if re.search(dic, txt, re.IGNORECASE) is not None:
return True
return False
答案 0 :(得分:0)
在帖子中查找其他与编程相关的单词:“syntax”,“error”,“program”,“programming”,“script”;你不可能在关于蛇的帖子中找到这些词。 (信用duskwuff澄清问题)
答案 1 :(得分:0)
您可以尝试使用朴素的贝叶斯分类器。由于您对Python感兴趣,因此您可能已经熟悉spambayes。你需要手工分类一堆文章,将关于蛇(或喜剧小组)的文章称为“垃圾邮件”,将那些关于编程语言的文章称为“火腿”。