所以我有一个文件让我们打电话" page.html"。在这个文件中,我想要提取一些链接/文件路径。我一直在BASH工作,试图做到这一点,但似乎无法做到。我想要抓住的单词/链接/路径都以" / funny / hello / there /"开头。目标是将所有这些单词转到终端,以便我可以使用它们。
这是我迄今为止所尝试过的,没有运气:
grep -E '^/funny/hello/there/` page.html
和
grep -Po '/funny/hello/there/.*?` page.html
非常感谢任何帮助,谢谢。
以下是文件中的示例数据:
`<td data-title="Blah" class="Blah" >
<a href="/funny/hello/there/fkljaskdjfl" title="This here">fdsksldjfah</a>
</td>`
我的输出为我提供了所有不同的行:
<a href="/funny/hello/there/fkljaskdjfl" title="This here">fdsksldjfah</a>
&#34; / fkljaskdjfl&#34;虽然有些不同。
我希望输出看起来像:
/funny/hello/there/fkljaskdjfl
/funny/hello/there/kfjasdflas
/funny/hello/there/kdfhakjasa
答案 0 :(得分:1)
您可以使用此grep
命令:
grep -o "/funny/hello/there/[^'\"[:blank:]]*" page.html
然而,应该使用shell
实用程序来解析HTML并使用专用的HTML dom解析器。