PHP从文本生成随机短语

时间:2011-11-05 23:08:22

标签: php string

我正在尝试从文本中构建独特的随机短语来检测抄袭。这个想法是作者将提交一篇文章,然后php将从文本中构建短语,用于抄袭检测

考虑以下句子:

  

这是一篇非常漫长而乏味的文章,本文是抄袭的。

基于上述文本,系统将确定将生成多少短语,即20个单词长的文章将具有3个短语。最大生成的短语可以是最少两个单词长,最多3个单词长。返回的输出将是这样的

  • 很长
  • 文章被剽窃

我写了以下代码

$words = str_word_count($text, 1);
$total_phrases_required = count($words) /2;
//build phrases

我需要提示如何完成剩下的部分。

1 个答案:

答案 0 :(得分:0)

您可以将文本拆分为两个句子数组,然后使用类似similar_text函数的函数来递归检查相似的字符串。

另一个想法,就是找到彻头彻尾的贫困。你可以再次将文本分解成句子。但随后放入数据库并运行一个查询,按句子列选择索引列和组的计数。如果任何结果返回大于1,那么您将完全匹配该句子。