我需要一些帮助我的bash shell对我来说似乎很简单。我希望能够提取给定网站的所有链接并将其打印到标准输出。我想通过我自己的脚本来做这一切。我的目标是获得命令并拥有网站,我将从中提取所有链接,成为一个参数。这是我到目前为止所做的:
cat> extract_links
卷曲$ 1 | grep
我没有太多的编程经验,很抱歉,如果这不是一个开始。是否有必要使用正则表达式?如果有人愿意提供帮助,我们将非常感谢能够提供尽可能简单的代码。谢谢!
答案 0 :(得分:0)
这是一个单行:
grep 'https?://[\w/&=.?]+' $1
这将找到所有网址。如果通过“链接”你真的意味着“锚标签”有点棘手,但可行。您没有提供任何样本输入或输出,因此我无法确定您想要的是什么。
你可以通过正则表达式获得更高的评价。这取决于它们如何嵌入您的文档中
答案 1 :(得分:-1)
这在Python中要容易得多。
只需使用x = string.find('href="')
,并将字符串定义为string[x:]
,然后运行string.find('"')
并使用该值删除网址(print string[x:y]
)。
把它放到while循环中你应该好好去