下载所有发布的摘要

时间:2014-11-13 00:06:44

标签: web-scraping pubmed

有谁知道如何轻松下载所有发表的文章摘要?我正在开展一个文本挖掘项目。

我能找到的最接近的一个可以在给定pmid的情况下一次下载一个摘要,但这对我来说太慢了,因为我必须一次下载一个。

4 个答案:

答案 0 :(得分:7)

您可以直接通过FTP从NLM获取所有数据。

https://www.nlm.nih.gov/databases/license/license.html

下载并远离工作而不必担心电子工具。

答案 1 :(得分:5)

搜索"0000/01/01"[PDAT] : "3000/12/31"[PDAT]应该从一开始就为每篇文章提供帮助。

也许"被发送到"搜索结果正上方显示的功能可让您下载所有内容。

或者,您可以编写脚本并使用NCBI中的Entrez编程实用程序。

您可以使用ESearch执行搜索查询,该查询将返回所有PMID。 然后,您可以使用EFetch返回所有数据。本书/手册对此进行了解释: http://www.ncbi.nlm.nih.gov/books/NBK25501/

第3章包含一些可以帮助您入门的示例脚本: http://www.ncbi.nlm.nih.gov/books/NBK25498/#chapter3

您将获得包含摘要和所有其他数据的xml文件。

2500万个XML文件......

答案 2 :(得分:2)

我会使用RESTful API provided by Europe PMC。它们允许以json或xml格式为每个查询下载25篇文章。关于疟疾的文章的示例查询如下:

您可以使用不同格式的搜索查询,这取决于您真正想要检索的内容。

答案 3 :(得分:0)

我知道这有点陈旧,但他们有一个完全相同的用例 - 大规模采矿项目。

您可以通过免费许可协议获取数据 - 更多信息here