如何从链接中提取数据

时间:2014-10-23 23:39:05

标签: bash parsing variables

我有一个网页来源,我想从页面上的链接中提取数字。名字/姓氏嵌入链接中。 我设法通过首先保存代码然后使用cat和grep来解析页面中的所有链接 我以

的形式得到了结果
<a href="/apartments/rent/city-firstLastname.html">

cat webpage | grep apartments | \
while read line; do
echo ${line%.html}
done

如何从while循环中提取并回显firstname,lastname。我猜测我的变量操作缺少了什么 感谢

2 个答案:

答案 0 :(得分:0)

echo ${line} | sed 's/.*rent\/.*\-//' | sed 's/\.html.*//'

会为每条firstLastname行提供<a…,但您需要提供更多数据才能获得更多信息。

grepsed从不用于解析HTML文件。在下一个项目中尝试pup

答案 1 :(得分:0)

这将只回显firstlastname部分,如果删除剪切,则可以保留.html。也不是说这是一个很重要的因素,但是切割比sed要快得多,因为它的复杂程度要低得多。

猫网页| egrep -oi'[a-z] + .html“'| cut -d.-f1