我正在建立一个使用Twitters公共时间线推文的网站。
http://twitter.com/statuses/public_timeline.xml
我不想要中文,俄文等的推文。除了用符号写的推文外,我想要一切。
这是我不想要的一个例子: スポーツブランドPR,マーケティング0.2児の母好きなもの:。ユニコーン,着物,駅伝
我已经尝试过mb_detect_encoding UTF8,但这不起作用。
答案 0 :(得分:2)
您只需使用Google语言API:
GET https://www.googleapis.com/language/translate/v2?key=INSERT-YOUR-KEY&target=de&q=Hello%20world
它将返回JSON中的语言:
{
"data": {
"translations": [
{
"translatedText": "Hallo Welt",
"detectedSourceLanguage": "en"
}
]
}
}
取自official documentation的示例,搜索“这是另一个自动检测源文本语言的示例:”
答案 1 :(得分:0)
所有编码都相同,英文帖子也是UTF-8;)
有两个选项,要么从Twitter API中找到一个可以过滤英文帖子的解决方案。
或者您可以使用正则表达式和循环来过滤其中包含非罗马/拉丁字符的帖子。
preg_match('/[^\00-\255]+/u', $post);
希望这有帮助,
尼科
答案 2 :(得分:0)
在查询公共时间轴时,我认为没有办法声明语言过滤器。
但是,在发布推文的用户的公共时间轴查询中返回language
字段。你可以非常自信地对此进行过滤。