Question

我有一个网页来源，我想从页面上的链接中提取数字。名字/姓氏嵌入链接中。我设法通过首先保存代码然后使用cat和grep来解析页面中的所有链接我以

的形式得到了结果

<a href="/apartments/rent/city-firstLastname.html">

cat webpage | grep apartments | \
while read line; do
echo ${line%.html}
done

如何从while循环中提取并回显firstname，lastname。我猜测我的变量操作缺少了什么感谢

Answer 1

echo ${line} | sed 's/.*rent\/.*\-//' | sed 's/\.html.*//'

会为每条firstLastname行提供<a…，但您需要提供更多数据才能获得更多信息。

grep，sed等从不用于解析HTML文件。在下一个项目中尝试pup。

Answer 2

这将只回显firstlastname部分，如果删除剪切，则可以保留.html。也不是说这是一个很重要的因素，但是切割比sed要快得多，因为它的复杂程度要低得多。

猫网页| egrep -oi'[a-z] + .html“'| cut -d.-f1