我喜欢跟踪delicious.com/popular RSS Feed。但是,最近这些项目中的亚洲页面越来越多。由于我不懂任何亚洲语言,我想以某种方式从Feed中过滤它们并节省一些时间。
我一直在尝试用Yahoo pipes烹饪一些东西,但却无法让它运转起来。
任何想法如何使这项工作?
答案 0 :(得分:1)
我在http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ
运气好了管道的源代码包含所有信息,但是关键位正在运行带有正则表达式^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]
〜] + $`的过滤器。
这将过滤掉标题中除标准ASCII之外的任何内容。不幸的是,这意味着它还会过滤“简历”这样的词语,但是你应该很容易调整正则表达式,以包含你所知道语言的常见非英语字符。
答案 1 :(得分:0)
您可能希望跳过超过X%的字符不是来自分配给您可以理解的那些语言的脚本的代码块的标题。例如,如果您不能阅读希腊语,俄语,阿拉伯语,希伯来语,亚美尼亚语,中文,日语,韩语,印度语等语言,请拒绝超过(例如)10%的字符不在U + 0000范围内的标题U + 0233。这会留下拉丁字母。留下10%的保证金的想法是标点符号;技术文章也可以使用不在基础字母表中的符号。