刮取网页并提取以特定符号开头的单词

时间:2014-03-02 07:11:49

标签: unix sed awk grep wget

我想从以下内容中提取所有的twitter句柄:http://twitaholic.com/top100/followers/

所有Twitter句柄均以@

开头

wget twitaholic.com/top100/followers/ | grep -oh "@"之类的东西只能打印句柄,但这不起作用(只打印@)。怎么了?

1 个答案:

答案 0 :(得分:1)

您正在使用-o的{​​{1}}选项并且仅指定一个字符grep,您也不需要@选项。

试试这个:

-h

我们在这里wget twitaholic.com/top100/followers/ | grep -o "@[^<]*" 所说的是查找grep符号并捕获所​​有内容,直到看到@符号为止。这是因为带有句柄的行看起来像这样:

<

因此,您实际需要提取从;@BarackObama<br @的文字。

<强>输出:

<