我有一个网页来源,我想从页面上的链接中提取数字。名字/姓氏嵌入链接中。 我设法通过首先保存代码然后使用cat和grep来解析页面中的所有链接 我以
的形式得到了结果<a href="/apartments/rent/city-firstLastname.html">
cat webpage | grep apartments | \
while read line; do
echo ${line%.html}
done
如何从while循环中提取并回显firstname,lastname。我猜测我的变量操作缺少了什么 感谢
答案 0 :(得分:0)
echo ${line} | sed 's/.*rent\/.*\-//' | sed 's/\.html.*//'
会为每条firstLastname
行提供<a…
,但您需要提供更多数据才能获得更多信息。
grep
,sed
等从不用于解析HTML文件。在下一个项目中尝试pup。
答案 1 :(得分:0)
这将只回显firstlastname部分,如果删除剪切,则可以保留.html。也不是说这是一个很重要的因素,但是切割比sed要快得多,因为它的复杂程度要低得多。
猫网页| egrep -oi'[a-z] + .html“'| cut -d.-f1