从不同页面抓取标题和字幕

时间:2020-05-05 17:43:17

标签: web-scraping

我是一名学生,在家上大学课。我的老师刚刚给我这份工作,包括在一定的时间间隔内(从1月22日至29日,仅在1月22日至29日)从在线意大利期刊中获取所有标题和副标题,其中包括“冠状病毒”和/或“ covid 19”一词。 4月1日至8日),并将其转录为Excel文件以分析所用单词。

我在网上搜索,并认为这可以被认为是抓取,这使我的一天充满了思考,因为我应该找到100-150个标题加上字幕,而且期限很短。不幸的是,我也是这方面的初学者,我自己所能做的就是找到一种从网页上仅收集标题的方法。就像初学者一样,我正在使用Data Miner和Google Chrome。

实际上,我应该从“ La Gazzetta dello Sport”网站(我在下面附加其链接)找到包含标题“冠状病毒”和/或“ covid 19”的所有标题和副标题,但是有一个问题:我可以看到只是搜索页面中的标题,但要获得字幕,我应该单击该文章并转到另一页。是否可以通过Data Miner获得所有结果,还是应该使用其他程序?

因此,为了简单起见:我不知道如何使Data Miner从搜索页面中收集标题,单击它以转到文章页面,收集字幕,然后返回搜索页面以传递到下一个标题和副标题,然后重复。我不知道这是可行的还是科幻小说,就像我说的那样:我是一个新手,这是第一次使用这类工具。

网址:https://www.gazzetta.it/nuovaricerca/home.shtml?q=coronavirus&dateFrom=2020-01-22&dateTo=2020-01-29

0 个答案:

没有答案