此应用程序将充当搜索引擎,以从不同的(至少200个)学术机构(包括大学,学院和其他培训机构)中提取与教职员工相关的信息。这包括教师姓名,最高学历,专业领域,专业类型(教学,研究,指导等),经验(以年为单位)和从属关系,并将它们存储在数据库中。
我必须从200个网站中获取数据,这意味着每个网站都有自己的标签和其他内容,每个网站的正则表达式将不同,我该怎么做,有没有人可以帮助您?
答案 0 :(得分:-1)
您需要使用无头浏览器进行网络爬网。我推荐此工具https://github.com/facebook/php-webdriver。
要能够抓取许多网站,您将需要实现许多不同的抓取工具,每个网站都有一个自己的html结构。
致谢。