我正在使用twitter流API来获取实时推文,而我正在检查lang。我正在从这些推文中提取hashTags,但问题是当我从tweettext中提取主题标签时,我会获得英语和非英语主题标签。有没有办法在获取tweettext提取主题标签后从特定的tweettext.My代码中提取英文标签
private String getHashTag(String TweetText) {
String[] words = TweetText.split(" ");
Set<String> hashtags = new HashSet<String>();
for (String word : words) {
if (word.startsWith("#")) {
hashtags.add(word);
}
}
return hashtags.toString();
}
答案 0 :(得分:1)
您应该使用Apache Tika及其API进行语言检测。这是一个例子:
import org.apache.tika.language.LanguageIdentifier;
LanguageIdentifier identifier = new LanguageIdentifier(word);
String language = identifier.getLanguage();
使用此解决方案,您可以获得语言,因此只考虑英文推文。
答案 1 :(得分:0)
您想要的是检测字符串的语言。请参阅此帖子:How to detect language of user entered text?