Question

我想使用wget过滤网站上的特定字词。

我要过滤的单词是 hPa 及其值。

我无法找到有关如何过滤掉特定字符串的有用信息。

这是我迄今为止所尝试过的：

#!/bin/bash

LAST=$(wget -l1 https://www.foreca.de/Deutschland/Berlin/Berlin -O - | sed -e 'hPa')
echo $LAST

感谢您帮助我。

Answer 1

使用xpath的完全成熟的解决方案：

命令：

for(lines <- handler.getLines()){
  println(">"+lines)
}

输出：

$ saxon-lint --html --xpath '//div[contains(text(), "hPa")]/text()' \
    'https://www.foreca.de/Deutschland/Berlin/Berlin'

不要使用正则表达式解析HTML，使用正确的XML / HTML解析器，就像我们在这里一样。检查：Using regular expressions with HTML tags
检查https://github.com/sputnick-dev/saxon-lint（我自己的项目）

如果我写的内容很烦你，你只想要一个快速而肮脏的命令，即使它是邪恶的，那么使用1026 hPa