是否有一个不使用搜索索引文件的开源Web搜索库?

时间:2008-11-07 01:42:26

标签: search

我正在寻找一个不使用搜索索引文件的开源网络搜索库。 你知道吗?

谢谢, 肯尼斯

3 个答案:

答案 0 :(得分:1)

原始海报在对此回复的评论中澄清,他所寻找的内容基本上是“greplike搜索,但通过HTTP”,并提到他正在寻找使用小磁盘的东西,因为他正在使用嵌入式系统。 / p>

我不知道任何相关项目,但您可能希望以您选择的语言查看html解析器和xquery实现。你应该能够用前者来处理html的“真实”混乱,并编写一个几乎与你想要的后者一样详细的搜索。

我假设您将使用一组将要提供或已经存储在本地的URL,因为在嵌入式设备中实际抓取整个Web,发现链接等的想法是完全不现实的。

虽然有一个很好的html / xquery实现,但你确实有提取所有链接的工具..

我的原始答案,这实际上是要求澄清

不确定你的意思。你如何描绘没有索引的搜索工作?为每个查询抓取网页?管道到谷歌?或者您指的是您试图避免的特定类型的搜索索引文件?

答案 1 :(得分:1)

你的意思是:

search.cgi

#/bin/sh
arg=`echo $QUERY | sed -e 's/^s=//' -e 's/&.*$//'`
cd /var/www/httpd
find . -type f | xargs egrep -l "$arg" | awk 'BEGIN { 
        print "Content-type: text/html"; 
        print "";
        print "<HTML><HEAD><TITLE>Search Result</TITLE></HEAD>";
        print "<BODY><P>Here are your search results, sorry it took so long.</P>";
        print "<UL>";
    }
    { print  "<LI><A HREF=\"http://yourhost.com/" $1 "\">" $1 "</A></LI>"; }
    END {
        print "</UL></BODY>";
    }'

未经测试...

答案 2 :(得分:0)

我想没有(至少这个用户已经足够流行了)。

我们已经开始编写自己的搜索系统。