如何使用r在google scholar上下载搜索结果?

时间:2011-02-15 15:56:54

标签: r google-scholar

我想使用R提取Google学术搜索的前100个结果(比如说)。有谁知道怎么做?

准确地说,我只需要论文的名称,作者和引文数。

Ps这是合法的吗?

5 个答案:

答案 0 :(得分:4)

有一些Python和Perl刮刀可以调整,链接在http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-just.html

答案 1 :(得分:4)

答案 2 :(得分:3)

我无法谈论你的任务的合法性,但有几种方法可以解决这个问题。虽然我在XPath中不强,但它可能是最好的方法。我相信您可以使用XML包来检索页面内容并使用XPath来提取所需元素的数据。

例如,我使用Chrome浏览器浏览器,当我使用开发人员工具检查页面时,页面上似乎有一个结构,数据“隐藏”在各种标签内,您应该可以利用非常容易使用XPath。

查看此link以获取使用XPath的示例。

HTH和好运

答案 3 :(得分:3)

您绝对可以使用RCurl检索页面的HTML内容,并使用Btibert3建议的RXML解析它们。 您可能面临的唯一问题是Google不允许您以“机器人”方式进行查询。在短时间内在谷歌进行200次查询之后,它将不再返回结果。也许与Google学术搜索有所不同,但我对此表示怀疑......

答案 4 :(得分:1)