定期更新大型数据库

时间:2013-11-30 21:13:42

标签: mysql database-design large-data

晚上,

我正在构建一个网络爬虫,它将在数据库中保存URL,该数据库将包含三列:

id (BINGINT,20)    url (VARCHAR,21), indexed (INT,1)
1                  fsdfsdfsdf        1
2                  gfdgfdgfdg        0

抓取工具将从网页中提取网址(可能不是唯一的;我只想存储唯一的网址),并将其存储在数据库中。索引列将记录页面是否已被抓取。

我的想法是在url列上放置一个唯一索引,在索引列上放置一个普通索引(因为我需要对此进行查询)以找到需要爬网的URL。但我想这会在约会之后变得缓慢。

是否有人建议为这些要求提供更有效的Db结构?

0 个答案:

没有答案