从twitter检查提取趋势的语言

时间:2015-06-18 19:11:05

标签: python twitter

我只是使用python中的tweepy模块从twitter中提取顶级主题标签。我面临一个主要问题,我希望检查英文标签是否与否。应删除不是英文的标签。

示例:

Otecmatkasyn

不应该有{{1}}。

2 个答案:

答案 0 :(得分:1)

您需要使用的是语言检测器API。一个好的是Google提供的那个,但它不是免费的。另一个不错的选择是Language Detection API

在为您选择最佳API之后,您需要解析文本以使其作为句子有意义。例如,标记'AskOrange'必须拆分为读取'Ask Orange'。您可以遍历字符串的每个字符,检查它是否为大写并在那里插入空格:

new_tags = []
for tag in tags:
    new_word = tag
    uppercases = 0 # In case your sentence has several uppercases
    for i in xrange(1, len(tag)):
        if tag[i].istitle():
            new_word = new_word[:i+uppercases] + ' ' + new_word[i+uppercases:]
            uppercases = uppercases + 1
    new_tags.append(new_word)

最后,将您的new_tags列表发送到API以检测语言。

答案 1 :(得分:0)

cc.ProgressTimer.TYPE_RADIAL

然后检查语言。