有谁知道如何轻松下载所有发表的文章摘要?我正在开展一个文本挖掘项目。
我能找到的最接近的一个可以在给定pmid的情况下一次下载一个摘要,但这对我来说太慢了,因为我必须一次下载一个。
答案 0 :(得分:7)
答案 1 :(得分:5)
搜索"0000/01/01"[PDAT] : "3000/12/31"[PDAT]
应该从一开始就为每篇文章提供帮助。
也许"被发送到"搜索结果正上方显示的功能可让您下载所有内容。
或者,您可以编写脚本并使用NCBI中的Entrez编程实用程序。
您可以使用ESearch执行搜索查询,该查询将返回所有PMID。 然后,您可以使用EFetch返回所有数据。本书/手册对此进行了解释: http://www.ncbi.nlm.nih.gov/books/NBK25501/
第3章包含一些可以帮助您入门的示例脚本: http://www.ncbi.nlm.nih.gov/books/NBK25498/#chapter3
您将获得包含摘要和所有其他数据的xml文件。
2500万个XML文件......
答案 2 :(得分:2)
我会使用RESTful API provided by Europe PMC。它们允许以json或xml格式为每个查询下载25篇文章。关于疟疾的文章的示例查询如下:
您可以使用不同格式的搜索查询,这取决于您真正想要检索的内容。
答案 3 :(得分:0)
我知道这有点陈旧,但他们有一个完全相同的用例 - 大规模采矿项目。
您可以通过免费许可协议获取数据 - 更多信息here。