如何从tweettext

时间:2016-01-13 09:29:51

标签: java twitter4j

我正在使用twitter流API来获取实时推文,而我正在检查lang。我正在从这些推文中提取hashTags,但问题是当我从tweettext中提取主题标签时,我会获得英语和非英语主题标签。有没有办法在获取tweettext提取主题标签后从特定的tweettext.My代码中提取英文标签

private String getHashTag(String TweetText) {
     String[] words = TweetText.split(" ");
        Set<String> hashtags = new HashSet<String>();
        for (String word : words) {
            if (word.startsWith("#")) {
                hashtags.add(word);
            }
        }
        return hashtags.toString();
}

2 个答案:

答案 0 :(得分:1)

您应该使用Apache Tika及其API进行语言检测。这是一个例子:

import org.apache.tika.language.LanguageIdentifier;

LanguageIdentifier identifier = new LanguageIdentifier(word);
String language = identifier.getLanguage();

使用此解决方案,您可以获得语言,因此只考虑英文推文。

答案 1 :(得分:0)

您想要的是检测字符串的语言。请参阅此帖子:How to detect language of user entered text?