我想使用R提取Google学术搜索的前100个结果(比如说)。有谁知道怎么做?
准确地说,我只需要论文的名称,作者和引文数。
Ps这是合法的吗?
答案 0 :(得分:4)
有一些Python和Perl刮刀可以调整,链接在http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-just.html
答案 1 :(得分:4)
请考虑更新的biobucket-post:
http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html
答案 2 :(得分:3)
我无法谈论你的任务的合法性,但有几种方法可以解决这个问题。虽然我在XPath中不强,但它可能是最好的方法。我相信您可以使用XML包来检索页面内容并使用XPath来提取所需元素的数据。
例如,我使用Chrome浏览器浏览器,当我使用开发人员工具检查页面时,页面上似乎有一个结构,数据“隐藏”在各种标签内,您应该可以利用非常容易使用XPath。
查看此link以获取使用XPath的示例。
HTH和好运答案 3 :(得分:3)
您绝对可以使用RCurl检索页面的HTML内容,并使用Btibert3建议的RXML解析它们。 您可能面临的唯一问题是Google不允许您以“机器人”方式进行查询。在短时间内在谷歌进行200次查询之后,它将不再返回结果。也许与Google学术搜索有所不同,但我对此表示怀疑......
答案 4 :(得分:1)