我应该如何加载.txt文件的内容以在网站上提供?

时间:2012-02-09 02:23:52

标签: linux apache sphinx file-get-contents

我正在尝试为在我的网站上作为搜索结果返回的每个文档制作摘录。我在Linux CentOS上使用Sphinx搜索引擎和Apache Web服务器。我想要使​​用的Sphinx API中的函数称为BuildExcerpts。此函数要求您传递一个字符串数组,其中每个字符串都包含文档内容。

我想知道在网上提供结果时,实时检索文档内容的最佳做法是什么。目前,这些文档都在我的系统上的文本文件中,分布在多个驱动器上。它们大约有100MM,它们占用了几TB的空间。

我很容易打电话给像file_get_contents()这样的东西,但感觉这是错误的做法。我的数据库已经很大(100GB +),我并不特别希望将文档内容与已存在的文档属性一起丢弃。也许这是最好的方法。

建议?

1 个答案:

答案 0 :(得分:0)

嗯,需要从某个地方获取源代码。如果您不想在数据库中复制它,则需要从文件系统中获取它。 (使用file_get_contets或类似的)

虽然BuildExerpts函数确实为您提供了一个额外选项“load_files”

...然后sphinx将为您读取文件名中的数据。

从文件中读取它有什么问题?太慢了吗?如果是这样,也许可以在前面使用一些缓存 - 也许使用memcache。