Question

我正在尝试从import.io中的javascript链接中提取文件名，例如来自googlebolver.htm的{{1}}

我设法通过以下XPath转到'link'（href="javascript:finpopup('googlebolver.htm',920,620,0)"）

javascript:finpopup('googlebolver.htm',920,620,0)

但我想自己找到实际的地址。当我在多个网址上运行import.io Extracto时，我希望它能找到类似//*[text()='GOOGLE.MAPS']/@href

的内容

我相信这可能通过使用子字符串函数，但我不知道如何做到这一点。本网站的以下问题看起来很有希望，但其中一个仅适用于固定长度的叮咬，另一个我不完全理解并仅适用于特定的“单词”

提前感谢您的帮助

编辑：这是URL

Answer 1

您可以使用XPath函数substring-after和substring-before来选择('之后',之前的文字

在你的例子中，它将是

substring-before(substring-after(//*[text()='GOOGLE.MAPS']/@href,"('"),"',")

注意：我不知道import.io是否支持这些标准的XPath函数