我正在尝试从import.io中的javascript链接中提取文件名,例如来自googlebolver.htm
的{{1}}
我设法通过以下XPath转到'link'(href="javascript:finpopup('googlebolver.htm',920,620,0)"
)
javascript:finpopup('googlebolver.htm',920,620,0)
但我想自己找到实际的地址。
当我在多个网址上运行import.io Extracto时,我希望它能找到类似//*[text()='GOOGLE.MAPS']/@href
我相信这可能通过使用子字符串函数,但我不知道如何做到这一点。 本网站的以下问题看起来很有希望,但其中一个仅适用于固定长度的叮咬,另一个我不完全理解并仅适用于特定的“单词”
答案 0 :(得分:0)
您可以使用XPath函数substring-after
和substring-before
来选择('
之后',
之前的文字
在你的例子中,它将是
substring-before(substring-after(//*[text()='GOOGLE.MAPS']/@href,"('"),"',")
注意:我不知道import.io是否支持这些标准的XPath函数