我知道这是一个很长的镜头,但无论如何我都会问。
我想对某些文字运行过滤器,我想删除英语中最常出现的单词,例如“The”,“a”,“and”,“或”等...
这个挑战是否已在某处得到解决,因此您可以获得相当不错的此类词汇列表?
答案 0 :(得分:1)
你正在寻找的官方术语是“停止言辞”。对于英语,我经常使用Solr搜索引擎中的stopwords.txt列表:
答案 1 :(得分:0)
正则表达式怎么样?查看此页面的“字词”部分http://www.roscripts.com/PHP_regular_expressions_examples-136.html。有一些样本正则表达式包括对单词进行操作的模式。
//Words: Whole word
//Match one of the words from the list
'\b(?:word1|word2|word3)\b'
答案 2 :(得分:0)
我使用str_replace()
示例:
str_replace("and", "", $text);