晚上,
我正在构建一个网络爬虫,它将在数据库中保存URL,该数据库将包含三列:
id (BINGINT,20) url (VARCHAR,21), indexed (INT,1)
1 fsdfsdfsdf 1
2 gfdgfdgfdg 0
抓取工具将从网页中提取网址(可能不是唯一的;我只想存储唯一的网址),并将其存储在数据库中。索引列将记录页面是否已被抓取。
我的想法是在url列上放置一个唯一索引,在索引列上放置一个普通索引(因为我需要对此进行查询)以找到需要爬网的URL。但我想这会在约会之后变得缓慢。
是否有人建议为这些要求提供更有效的Db结构?