如何通过机器准确区分python和蛇的文章?

时间:2012-02-15 03:13:46

标签: python semantics

我尝试创建一个像行星一样的python语言新闻聚合网站http://www.pythonmeme.com,我从G +和twitter等社交媒体中抓取python新闻,并通过一些python关键字抓取一些python feed。

但有些文章关于蛇的结果,我发现很难确定这些关于蛇的文章,我创建了一个过滤它的字典,但它不够好。

有更好的方法吗?

snack_dic = ['shoe', 'snake', 'nail', 'python hunter']

def is_snake(txt):
    for dic in snack_dic:
        if re.search(dic, txt, re.IGNORECASE) is not None:
            return True
    return False  

2 个答案:

答案 0 :(得分:0)

在帖子中查找其他与编程相关的单词:“syntax”,“error”,“program”,“programming”,“script”;你不可能在关于蛇的帖子中找到这些词。 (信用duskwuff澄清问题)

答案 1 :(得分:0)

您可以尝试使用朴素的贝叶斯分类器。由于您对Python感兴趣,因此您可能已经熟悉spambayes。你需要手工分类一堆文章,将关于蛇(或喜剧小组)的文章称为“垃圾邮件”,将那些关于编程语言的文章称为“火腿”。