应用错误收集

时间：2011-02-15 15:56:54

标签： r google-scholar

我想使用R提取Google学术搜索的前100个结果（比如说）。有谁知道怎么做？

准确地说，我只需要论文的名称，作者和引文数。

Ps这是合法的吗？

答案 0 :(得分：4)

答案 1 :(得分：4)

请考虑更新的biobucket-post：

答案 2 :(得分：3)

我无法谈论你的任务的合法性，但有几种方法可以解决这个问题。虽然我在XPath中不强，但它可能是最好的方法。我相信您可以使用XML包来检索页面内容并使用XPath来提取所需元素的数据。

例如，我使用Chrome浏览器浏览器，当我使用开发人员工具检查页面时，页面上似乎有一个结构，数据“隐藏”在各种标签内，您应该可以利用非常容易使用XPath。

查看此link以获取使用XPath的示例。

HTH和好运

答案 3 :(得分：3)

您绝对可以使用RCurl检索页面的HTML内容，并使用Btibert3建议的RXML解析它们。您可能面临的唯一问题是Google不允许您以“机器人”方式进行查询。在短时间内在谷歌进行200次查询之后，它将不再返回结果。也许与Google学术搜索有所不同，但我对此表示怀疑......

答案 4 :(得分：1)

最近在这里发布了一个解决方案：