从开始模式的文件中grep每个单词

时间:2015-11-03 18:12:38

标签: bash grep

所以我有一个文件让我们打电话" page.html"。在这个文件中,我想要提取一些链接/文件路径。我一直在BASH工作,试图做到这一点,但似乎无法做到。我想要抓住的单词/链接/路径都以" / funny / hello / there /"开头。目标是将所有这些单词转到终端,以便我可以使用它们。

这是我迄今为止所尝试过的,没有运气:

grep -E '^/funny/hello/there/` page.html

grep -Po '/funny/hello/there/.*?` page.html

非常感谢任何帮助,谢谢。

以下是文件中的示例数据:

`<td data-title="Blah"  class="Blah" >
                                                                                                                                        <a href="/funny/hello/there/fkljaskdjfl" title="This here">fdsksldjfah</a>
                                                                                            </td>`

我的输出为我提供了所有不同的行:

<a href="/funny/hello/there/fkljaskdjfl" title="This here">fdsksldjfah</a>

&#34; / fkljaskdjfl&#34;虽然有些不同。

我希望输出看起来像:

/funny/hello/there/fkljaskdjfl
/funny/hello/there/kfjasdflas
/funny/hello/there/kdfhakjasa

1 个答案:

答案 0 :(得分:1)

您可以使用此grep命令:

grep -o "/funny/hello/there/[^'\"[:blank:]]*" page.html

然而,应该使用shell实用程序来解析HTML并使用专用的HTML dom解析器。