标签: java search web-crawler search-engine
我使用BFS创建了一个简单的网络抓取工具,它给出了一些种子网址和一些关键字抓取网络搜索包含这些关键字的内容。我相信下一步是索引,搜索引擎可以查询它,我想知道最好的方法是什么?我最关心的一些问题是:
我应该将索引存储在文件还是数据库中?
我是否存储找到的页面以及此页面中的所有外发地址或仅存储未访问的地址?