我要在我的文本文件中找到wordnet的搭配。因为搭配不止一个单词或者有像' - 的特殊字符。我已经存储了这样的字符串/搭配列表。现在我的文本文件(来自语料库)我需要确定是否出现这些字符串中的任何一个。 问题是因为即时通讯使用POS标签器,多字段搭配被视为单独的单词,所以我需要首先从我的搭配列表中获取搭配,找到它是否出现在文本中然后用一些特殊字符替换搭配中的空格_所以pos tagger认为它是一个。 我在列表中的每个搭配上尝试了preg_replace文本文件内容,但我的浏览器崩溃或显示内存过载错误
$m=file_get_contents ('sample.txt');
$comp=file('collocation_list.txt');
for ($x=0; $x<= count($comp); $x++)
{
$comp[$x] = trim(strtolower($comp[$x]));
$c =$comp[$x];
$rep=str_replace(" ","_",$c);
$rep=" ".$rep." ";
$m =preg_replace($c,$rep,$m);
}