我正在尝试刮擦惠誉国际评级的网站,直到现在我仍无法获得想要的东西:评级列表。当我用 R 抓取时,它会返回网站的标题,并且在正文中会从googleTagManager获取“ iframe”,从而“隐藏”重要的内容。
返回:
[1] <head>\n<title>Search - Fitch Ratings</title>\n<!-- headerScripts --><!-- --><meta http-equiv="Content-Type" content="text/html; chars ...
[2] <body id="search-results">\n <div id="privacy-policy-tos-modal-container"></div>\n <!-- Google Tag Manager (noscript) -- ...
_____________
我想要什么:
Date;Research;Type;Text
04 Sep 2019; Fitch afirma Rating de Qualidade(...);Rating Action Commentary;Fitch Ratings-Sao Paulo - 04 September 2019: A Fitch Ratings Afirmou hoje, o Rating de Qualidade de Gestão de Ivnestimento 'Excelente' (...)
02 Sep 2019; Fitch Eleva Rating (...); Rating Action Commentary; Fitch Ratings - Sao Paulo - 02 September 2019: A Fitch Ratings elevou hoje (...)
下面的代码
html_of_site <- read_html(url("https://www.fitchratings.com/site/search?content=research&filter=RESEARCH%20LANGUAGE%5EPortuguese%2BGEOGRAPHY%5EAmericas%2BREPORT%20TYPE%5EHeadlines%5ERating%20Action%20Commentary"))
html_of_site
答案 0 :(得分:2)
简短回答:请勿抓取该网站。
长答案:从技术上讲,可以刮擦此网站,但是您需要代码才能像人类一样行事。这意味着您需要说服Fitch Group的服务器,您确实是人类的访客,而不是机器人。
为此,您需要:
我无法访问thefitchgroup.com的站点策略,但是我认为它包含有关什么是机器人以及不允许在该站点上进行操作的条款。由于该公司可能会出售您要抓取的数据,因此您应该避免抓取该网站。
通常,在未先阅读网站政策的情况下请不要抓取网站。如果您要抓取的数据不是没有抓取就免费的,那么您可能不应该抓取它。