我正在编写网络抓取工具。所有链接都存储在MySQL数据库中。因为我将在多个节点上运行爬虫,所以我需要尽可能快地将URL设置为“被爬行”以保持高效。
我的网页抓取工具是用C#编写的。现在,它下载URL和ID,然后将URL设置为使用ID进行爬网。问题是需要2个不同的查询。有没有办法将它们组合在一起?
这是我目前的代码:
string stm = "SELECT * FROM pages WHERE IsCrawled = 0 LIMIT 1;";
MySqlCommand cmd = new MySqlCommand(stm, conn);
cmd.ExecuteScalar();
id = -1;
using (rdr = cmd.ExecuteReader())
{
if (rdr.Read())
{
URL = rdr.GetString(1);
id = rdr.GetInt32(0);
}
}
MySqlCommand update = new MySqlCommand("UPDATE pages SET IsCrawled = 1 WHERE ID = '"+id+"'", conn);
update.ExecuteScalar();
同样,我想将查询组合在一起。
答案 0 :(得分:0)
要进行更新并选择一体化,您可以执行此操作,但是,我不确定您是否可以在程序流程的上下文中进行此操作。
UPDATE pages SET IsCrawled = 1 WHERE ID IN
(SELECT ID FROM pages WHERE IsCrawled = 0 LIMIT 1;)