我正在寻求帮助。我正在尝试从PubMed获取作者的出版物,并使用Apps Script将数据填充到Google表格中。我已经到了下面的代码,现在卡住了。
基本上,我要做的是首先从特定作者那里提取所有Pubmed ID,该ID的名称来自工作表的名称。然后,我尝试创建一个循环以遍历每个Pubmed ID JSON摘要并提取我想要的每个字段。我已经能够确定发布日期。我已经建立了这样一个想法:我将为所需的PMID的每个字段执行一个循环,将其存储在数组中,然后将其返回到我的工作表中。但是,我现在一直试图获取第二个字段title
和所有后续字段(例如作者,最后一位作者,第一位作者等)
任何帮助将不胜感激。
function IMPORTPMID(){
var ss = SpreadsheetApp.getActiveSpreadsheet();
var sheet = ss.getSheets()[0];
var author = sheet.getSheetName();
var url = ("https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=" + author + "[author]&retmode=json&retmax=1000");
var response = UrlFetchApp.fetch(url);
var AllAuthorPMID = JSON.parse(response.getContentText());
var xpath = "esearchresult/idlist";
var patharray = xpath.split("/");
for (var i = 0; i < patharray.length; i++) {
AllAuthorPMID = AllAuthorPMID[patharray[i]];
}
var PMID = AllAuthorPMID;
var PDparsearray = [PMID.length];
var titleparsearray = [PMID.length];
for (var x = 0; x < PMID.length; x++) {
var urlsum = ("https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=pubmed&retmode=json&rettype=abstract&id=" + PMID[x]);
var ressum = UrlFetchApp.fetch(urlsum);
var contentsum = ressum.getContentText();
var jsonsum = JSON.parse(contentsum);
var PDpath = "result/" + PMID[x] + "/pubdate";
var titlepath = "result/" + PMID[x] + "/title";
var PDpatharray = PDpath.split("/");
var titlepatharray = titlepath.split("/");
for (var j = 0; j < PDpatharray.length; j++) {
var jsonsum = jsonsum[PDpatharray[j]];
}
PDparsearray[x] = jsonsum;
}
var tempArr = [];
for (var obj in AllAuthorPMID) {
tempArr.push([obj, AllAuthorPMID[obj], PDparsearray[obj]]);
}
return tempArr;
}
答案 0 :(得分:1)
从给定PubMed ID的PubMed JSON响应中,您应该能够确定要包括在摘要报告中的字段名称(以及它们的路径)。如果它们都处于同一级别,则读取它们全部都比较容易实现,但是如果其中一些是子字段的属性,则只要在设置中提供正确的路径,仍然可以访问它们。
考虑“源JSON”:
[
{ "pubMedId": "1234",
"name": "Jay Sahn",
"publications": [
{ "pubId": "abcd",
"issn": "A1B2C3",
"title": "Dynamic JSON Parsing: A Journey into Madness",
"authors": [
{ "pubMedId": "1234" },
{ "pubMedId": "2345" }
]
},
{ "pubId": "efgh",
...
},
...
],
...
},
...
]
pubId
和issn
字段处于同一级别,而publications
和authors
则不在同一级别。
您可以通过以下两种方式在同一循环中同时检索pubMedId
和publications
字段(以及您需要的其他字段):1)对字段访问进行硬编码,或者2)编写用于解析字段的代码路径和供应场路径。
选项1可能会更快,但如果您突然想获得一个新字段,则灵活性会大大降低,因为您必须记住如何编写代码来访问该字段以及在何处插入代码,等等。如果API发生更改,请保存您的信息。
选项2更难解决,但是一旦正确,它将(应该)适用于您(正确)指定的任何字段。获取新字段就像在相关的config变量中写入它的路径一样容易。可能有一些图书馆可以为您做到这一点。
要将以上内容转换为电子表格行(外部数组中的每个pubMedId
,例如,您查询其API的ID),请考虑以下example code:
function foo() {
const sheet = /* get a sheet reference somehow */;
const resp = UrlFetchApp.fetch(...).getContentText();
const data = JSON.parse(resp);
// paths relative to the outermost field, which for the imaginary source is an array of "author" objects
const fields = ['pubMedId', 'name', 'publications/pubId', 'publications/title', 'publications/authors/pubMedId'];
const output = data.map(function (author) {
var row = fields.map(function (f) {
var desiredField = f.split('/').reduce(delve_, author);
return JSON.stringify(desiredField);
});
return row;
});
sheet.getRange(1, 1, output.length, output[0].length).setValues(output);
}
function delve_(parentObj, property, i, fullPath) {
// Dive into the given object to get the path. If the parent is an array, access its elements.
if (parentObj === undefined)
return;
// Simple case: parentObj is an Object, and property exists.
const child = parentObj[property];
if (child)
return child;
// Not a direct property / index, so perhaps a property on an object in an Array.
if (parentObj.constructor === Array)
return collate_(parentObj, fullPath.splice(i));
console.warn({message: "Unhandled case / missing property",
args: {parent: parentObj, prop: property, index: i, pathArray: fullPath}});
return; // property didn't exist, user error.
}
function collate_(arr, fields) {
// Obtain the given property from all elements of the array.
const results = arr.map(function (element) {
return fields.slice().reduce(delve_, element);
});
return results;
}
很明显,您可能想要一些不同的字段(又称真实字段),并且可能对如何报告它们还有其他想法,因此我将这一部分留给读者。
欢迎对此进行了改进的任何人提交PR。
推荐读物:
Array#reduce
Array#map
Array#splice
Array#slice