所以我正在编写一个简单的网站爬虫来维护内部网站。它将遍历每个链接,在找到它们时添加新链接,记下标题和h1标记等。
当我手动检查时,它只会复制标题和H1标签。
发生这种情况的原因是因为抓取脚本是通过cron运行的,并且它似乎是重叠的,因此处理同一页面两次。
该脚本基本上会抓取一个未被抓取的页面,然后如果http响应为200,它会将其标记为已爬行,并处理它所需的内容。
所以在SELECT和UPDATE之间,脚本的另一个线程在SELECTed的同一行上运行。
有没有办法在同一个查询中使用SELECT和UPDATE,或者锁定SELECT中返回的行,这样在完成之前它不能再在另一个线程的另一个查询中返回?
看过 - http://dev.mysql.com/doc/refman/5.0/en/innodb-locking-reads.html和一般的SELECT FOR UPDATE内容,但我仍然不确定。
修改
我正在使用类似的东西
START TRANSACTION;
SELECT .. FOR UPDATE;
UPDATE .... ;
COMMIT;
但它不喜欢它。我在该表上使用InnoDB。我认为这可能不是前进的方式,因为它只是在提交之后直接推迟行的处理,当我希望它在物理上无法再次选择行时。
我已经通过执行SELECT来解决此问题,然后执行UPDATE以在处理之前将字段标记为已爬行,但事实上这不是无缝的,这似乎导致了问题。我需要一种方法来无缝地选择和更新字段,或SELECT并再次停止它被选中,直到我这样说。
答案 0 :(得分:3)
你自己回答了这个问题:)。如果我正确理解您的问题,SELECT FOR UPDATE
正是您所需要的。请记住关闭自动提交,在选择之前启动事务并在更新后提交事务。
<强>更新强>
我认为这会做你想做的事情:
SET TRANSACTION ISOLATION LEVEL SERIALIZABLE;
BEGIN TRANSACTION;
SELECT .. FOR UPDATE;
UPDATE .... ;
COMMIT TRANSACTION;
答案 1 :(得分:3)
当您锁定行时(通过select for update),另一个事务将等待释放锁定,而不是跳过该行并选择下一行。更好的策略是在表中有一个标志列(无,处理,完成),可能带有时间戳。 cron抓取行,将标志设置为处理并开始处理页面。当另一个脚本实例正在运行时,它会选择不处于“处理”状态的行。当cron完成时,它会再次将记录更新为“已完成”