应用错误收集

时间：2013-04-04 08:02:25

标签： postgresql data-mining text-mining document-classification

我在PostgreSQL数据库中加载了20.000个文本文件，一行中有一个文件，全部存储在名为docs的表中，列doc_id和doc_content。

我知道大约有8种类型的文件。以下是我的问题：

我可以使用一些like '%%'或SIMILAR TO，但可能有更好的方法。

答案 0 :(得分：1)

你应该使用full text search，它是PostgreSQL 9.x核心（又名Tsearch2）的一部分。

对于某种最长公共子字符串的度量（如果愿意，可以使用相似性），您可以使用levenshtein()函数 - fuzzystrmatch扩展名的一部分。

答案 1 :(得分：0)