我有一个刮刀,可以从三种网站上删除数据。 其中一个网站(Facebook)有多种页面格式需要删除。
虽然两个网站工作正常,但一个特定的Facebook页面布局拒绝工作或工作非常奇怪。 (对于其他Facebook页面布局,我还没有注意到这种行为)
我正在从文件中读取每个链接并加载到webbrowser控件中,我等到每个页面完全加载(使用AutoResetEvent)然后在加载之后,我将页面html从webbrowser_Document_Completed事件发送到其他类来进行抓取。
这里的问题是,有时页面没有完全加载,有时它会完全加载 在这两种情况下都会触发webcontrol_Document_Completed。 当页面完全加载时,它可以正常工作 我调试了,实际上,页面没有完全加载,数据丢失。 它可以连续传递4-5次以完全加载页面,然后突然停止。 (随机模式)
我不知道在哪里寻找罪魁祸首。
我认为我的代码不正常所以我创建了新的测试项目,只是加载该页面并发生同样的问题
因此,页面可能是问题所在,因为我也看到,当它不起作用时,需要对数据进行评论。
也许有些保护......
有问题的网页是:https://www.facebook.com/pages/Childrens-Dental-Care/76095547112?v=info&viewas=0并需要抓住页面右侧加入Facebook,营业时间和停车位。
它需要// td [@class =' data']元素。
如果您有任何想法可能指向解决此问题......
谢谢!