标签: java database indexing search-engine web-crawler
打开目录项目,如 dmoz ,对每个网站进行非常精细的分类。虽然据说是任何爬虫项目的起点。我很迷惑。我只是想不通,如何使用 dmoz 作为索引工具?
我在每个有多个子目录的目录中扫描什么等等?我理解扫描像stackoverflow这样的网页,但我无法用dmoz来解决这个问题。
注意 - 我想创建自己的搜索引擎用于学习目的。我试图模仿dmoz作为其中的一部分。