PubMed文章的全文PDF

时间:2011-01-14 16:20:53

标签: pdf nlp text-mining pubmed

在处理项目时,我需要下载和处理PubMed摘要的全文文章,是否有任何实现的代码或工具允许用户输入一组PubMed ID并下载免费的全文文章。非常感谢任何形式的帮助或提示。

2 个答案:

答案 0 :(得分:6)

由于PubMed的性质,我认为一般情况下都不可能。您要做的最好的事情是从PubMedCentral的Open Access子集中获取文章。 PubMedCentral有number of online utilities来完成这项工作。

答案 1 :(得分:4)

StompChicken指出的实用程序是供发布者在提交给PMC之前验证其XML,它们不是下载工具。

请注意,PMC中的绝大多数文章都不是开放式访问(OA),因此无法通过任何方式自动(合法)下载。 NCBI警告说:

  • PMC中的大多数文章都受到传统版权限制,并不属于此子集。有关详细信息,请阅读PMC版权声明。
  • PMC OAI服务和PMC FTP服务是唯一可用于从此开放式访问子集自动下载文章的服务。
  • 即使您只是从该子集中检索文章,也禁止通过任何其他自动过程对文章进行系统检索(批量下载)。
  • 有些期刊使用“开放获取”标签作为发布时免费提供的文章,但仍受传统版权限制。此类文章不属于该子集。

要下载PMC内容,最好的方法是使用PMC Open Access FTP服务:http://www.ncbi.nlm.nih.gov/pmc/tools/ftp/

您还可以使用eutils查询PMC并下载OA子集的全文以及余下的摘要:http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/efetchlit_help.html

另一种选择是使用OAI服务:http://www.ncbi.nlm.nih.gov/pmc/tools/oai/

OAI服务记录严重,但有一些入门提示:http://www.biostars.org/p/2076/#13338

如果要维护和更新PMC存储库,请尝试使用pubtools:http://code.google.com/p/pubtools/