应用错误收集

时间：2012-02-09 02:23:52

标签： linux apache sphinx file-get-contents

我正在尝试为在我的网站上作为搜索结果返回的每个文档制作摘录。我在Linux CentOS上使用Sphinx搜索引擎和Apache Web服务器。我想要使用的Sphinx API中的函数称为BuildExcerpts。此函数要求您传递一个字符串数组，其中每个字符串都包含文档内容。

我想知道在网上提供结果时，实时检索文档内容的最佳做法是什么。目前，这些文档都在我的系统上的文本文件中，分布在多个驱动器上。它们大约有100MM，它们占用了几TB的空间。

我很容易打电话给像file_get_contents()这样的东西，但感觉这是错误的做法。我的数据库已经很大（100GB +），我并不特别希望将文档内容与已存在的文档属性一起丢弃。也许这是最好的方法。

建议？

答案 0 :(得分：0)

嗯，需要从某个地方获取源代码。如果您不想在数据库中复制它，则需要从文件系统中获取它。（使用file_get_contets或类似的）

虽然BuildExerpts函数确实为您提供了一个额外选项“load_files”

...然后sphinx将为您读取文件名中的数据。

从文件中读取它有什么问题？太慢了吗？如果是这样，也许可以在前面使用一些缓存 - 也许使用memcache。