在网站上填写搜索并在r中搜索屏幕结果

时间:2014-02-27 10:01:50

标签: r web-scraping screen-scraping search-form

这是我的第一篇文章,所以如果我的问题太模糊或不清楚,请告诉我。 我正在尝试用一个研究项目的新闻文章来搜索一个网站。但是该网页上修改后的搜索链接无效,因为Intranet身份验证会发出错误。 所以我的想法是,我填写搜索表单并使用生成的链接来抓取网站。 由于我的老板喜欢与R合作,他希望我写一个R-skript这样做,但我不知道如何找到任何工作。

1 个答案:

答案 0 :(得分:0)

您需要两个包:RCurlXMLRCurl包用于互联网浏览。它可以使用_GET或_PUT参数访问HTML表单。因此,有了它,您可以登录或填写任何表格。

服务器的输出将是HTML格式。如果要grep链接,可以使用XLM包。我帮助从XML格式获取任何数据。

但是在开始之前,你必须找出那是网页中的搜索表单(并且应该使用这些参数)。 Firefox浏览器可能很有用。您需要两个加载项:Live HTTP标头和Firebug。使用这些加载项,您可以更轻松地检查网页。

我知道它没有解决你的问题,但我不能再说了,因为它加深了特定的情况和网页结构。我相信我提到的工具足以达到你想要的效果。

投注问候。