我正在尝试在我的简单数据结构中实现搜索算法。然而,这不是“如何做到这一点?” - 问题,而是“我怎么能优化算法?”
我正在尝试保留文件索引,每个文件都可以与任意数量的标签相关联(这类似于一个类别)
这就是我的数据结构:
条目:
------------------------------------
| id | description | short | score |
------------------------------------
标签:
-------------
| id | text |
-------------
EntryTags:
-------------------
| entry_id | tag_id |
-------------------
在搜索字段中,搜索请求将始终转换为使用加号(+)拆分的单个单词。
在以下示例中,我将搜索“blue + website + simple + layout”
- split searchterm up into array named t
- convert each word in array t into a number using the id from "Tags" table
- for each element in array t, select make new array for each element with "EntryTags" matching the search
- generate array A, where elements that are in all 4 arrays are put into
- generate array B, where elements that are in 3 of the 4 arrays are put into
- generate array C, where elements that are in 2 of the 4 arrays are put into
- generate array D with the last elemenets rest
- sort array A,B,C and D by the score parameter from the table
- output array A, then B, then C, then D
当然这不是优化或任何东西,但我缺乏更复杂的SQL经验踢我的屁股:(
最后,所有这些都将用PHP和mysqli库编写(当我进一步推进时,我将保持线程更新)
答案 0 :(得分:5)
您可以使用某种Bloom filter(至少这是Google战略的一部分)。首先,您要查找包含所有输入标签的条目。如果您什么都没找到,请尝试丢失一个标签的所有组合,然后丢失两个标签......直到您有足够的匹配。 Bloom过滤器中的查找速度非常快,因此可以进行多次查找。
答案 1 :(得分:-1)
哇,让我们保持简单(KISS),这太复杂而且不灵活。
如何:使用SQL,搜索每个搜索词,并包含一个列,该列为该词的特定相关性添加“点”值。总结对此“点”值的搜索,并通过“点”找到最相关的结果。
检查出来:http://www.jarrodgoddard.com/web-development/advanced-web-site-search-with-sql
SELECT title, filename, sum(relevance)
FROM (
SELECT title, filename, 10 AS relevance FROM page WHERE title like ‘%about%’
UNION
SELECT title, filename, 7 AS relevance FROM page WHERE filename like ‘%about%’
UNION
SELECT title, filename, 5 AS relevance FROM page WHERE keywords like ‘%about%’
UNION
SELECT title, filename, 2 AS relevance FROM page WHERE description like ‘%about%’
) results
GROUP BY title, filename
ORDER BY relevance desc;