如何获取搜索引擎的有效URL数据库?

时间:2013-03-19 02:33:01

标签: c# .net dns search-engine

我正在尝试为学校制作一个互联网搜索引擎,只需要C#和.NET框架。我需要下载我正在索引的页面的HTML代码。

现在只需要有一个有效网址列表。

由于我没有有效网址的数据库,因此我制作了一个试验和错误算法,它会生成一个字符串:

a, b, c.....
aa, ab, ac......
aaa, aab, aac......
aaaa, aaab, aaac......
aaaaa, aaaab, aaaac......

然后尝试与.com,.net或其他任何东西连接。这太低效了。

我需要一个包含有效网址的数据库。你知道我能在哪里买到吗?

我无法弄清楚如何直接从DNS中获取它们 - 这是可能的吗?

1 个答案:

答案 0 :(得分:2)

你可以建立自己的。大多数搜索引擎抓取网页并关注其他网页的链接。

你从一个已知的列表开始(它不一定非常大)然后:

  1. 访问列表中的页面
  2. 在这些页面上查找链接
  3. 将这些链接添加到您的列表
  4. 转到1
  5. 至于使用DNS;它不是设计用于查询URL,而是仅用于查询主机名。而且,据我所知,除非您自己管理服务器,否则无法从DNS服务器获取每个主机名的列表。