Question

所以我有一个文件让我们打电话＆＃34; page.html＆＃34;。在这个文件中，我想要提取一些链接/文件路径。我一直在BASH工作，试图做到这一点，但似乎无法做到。我想要抓住的单词/链接/路径都以＆＃34; / funny / hello / there /＆＃34;开头。目标是将所有这些单词转到终端，以便我可以使用它们。

这是我迄今为止所尝试过的，没有运气：

grep -E '^/funny/hello/there/` page.html

和

grep -Po '/funny/hello/there/.*?` page.html

非常感谢任何帮助，谢谢。

以下是文件中的示例数据：

`<td data-title="Blah"  class="Blah" >
                                                                                                                                        <a href="/funny/hello/there/fkljaskdjfl" title="This here">fdsksldjfah</a>
                                                                                            </td>`

我的输出为我提供了所有不同的行：

<a href="/funny/hello/there/fkljaskdjfl" title="This here">fdsksldjfah</a>

＆＃34; / fkljaskdjfl＆＃34;虽然有些不同。

我希望输出看起来像：

/funny/hello/there/fkljaskdjfl
/funny/hello/there/kfjasdflas
/funny/hello/there/kdfhakjasa

Answer 1

您可以使用此grep命令：

grep -o "/funny/hello/there/[^'\"[:blank:]]*" page.html

然而，应该使用shell实用程序来解析HTML并使用专用的HTML dom解析器。

从开始模式的文件中grep每个单词

1 个答案: