清理噪音词,如a,和等等......

时间:2012-05-28 01:09:36

标签: php string parsing text stop-words

我知道这是一个很长的镜头,但无论如何我都会问。

我想对某些文字运行过滤器,我想删除英语中最常出现的单词,例如“The”,“a”,“and”,“或”等...

这个挑战是否已在某处得到解决,因此您可以获得相当不错的此类词汇列表?

3 个答案:

答案 0 :(得分:1)

你正在寻找的官方术语是“停止言辞”。对于英语,我经常使用Solr搜索引擎中的stopwords.txt列表:

https://code.google.com/p/solrmarc/source/browse/trunk/test/data/smoketest/solr/conf/stopwords.txt?r=1333

答案 1 :(得分:0)

正则表达式怎么样?查看此页面的“字词”部分http://www.roscripts.com/PHP_regular_expressions_examples-136.html。有一些样本正则表达式包括对单词进行操作的模式。

//Words: Whole word
//Match one of the words from the list
'\b(?:word1|word2|word3)\b'

答案 2 :(得分:0)

我使用str_replace()

示例:

str_replace("and", "", $text);