删除常用词但被要求返回可理解的内容时?

时间:2011-10-09 15:32:22

标签: php algorithm artificial-intelligence information-retrieval

我想知道如果以某种方式(可能有一个aglorithm)提交的文本如下面的那个可以归纳(删除常用词)

  

红色和蓝色在俱乐部衬衫上有不止一个   百年来,俱乐部被广泛称为“Blaugrana”   参考加泰罗尼亚语中这些颜色的名称。

但是当被要求时,要使用保存的数据并返回可理解的内容。也许不一样,但你容易理解的东西。

这会利用人工智能吗?今天有什么方法可以做到这一点?

更新(清理工作): 我想知道计算机如何连接关键字以提供可理解的内容。例如,"Scarlet, blue, club, shirt"

返回"Scarlet and blue are the club shirt"

3 个答案:

答案 0 :(得分:0)

关键字是“文本摘要”。

更新:根据您的更新,我扩展了我的答案。您可以将文档存储在Lucene / Elasticsearch等文本搜索引擎中,并查询关键字(例如“Scarlet,Blue,Club,Shirt”)以检索匹配的文档。不完全是“其他方式”;但您可以构建对返回的查询结果进行额外的特定于域的分析。

答案 1 :(得分:0)

为什么需要这个?看起来你需要压缩而不是智能的单词删除和恢复。试试这个:

function compress($text)
{
    return base64_encode(gzencode($text));
}
function decompress($text)
{
    return gzdecode(base64_decode($text));
}

答案 2 :(得分:0)

有两个不同的任务:

  1. 提取重要信息。
  2. 生成有意义的内容。
  3. 要完成这两者,您必须在(1)和(2)之间使用一些有意义的文本表示。我能想到的最佳选择是使用本体。首先从自由文本中提取事实并将它们放入本体,然后从该本体生成文本。像this这样的东西。无论如何,您需要提取事实,而不是关键字