正如问题所述,我使用 CURl 进行网页抓取,我得到了一个包含所有 html 元素但没有正确缩进的响应。
curl somewebsite.com/somepage > scrape.html/scrape.txt
执行此命令后,数据将保存在 scrape.txt 或 scrape.html 文件中,内容看起来非常混乱,而且大多仅在 1 行中。
文件内容看起来像这样
<!DOCTYPE html><html lang="en"><head><script src="/cdn-cgi/apps/head/a2ff1ftsK3yTu21p1BeEN2BZsnA.js"></script><link href="https://fonts.googleapis.com/css2?family=DM+Sans:wght@400;700&family=DM+Sans:wght@400&display=swap" rel="stylesheet" media="print" onload="if(!window._isAppPrerendering)this.removeAttribute("media");"><link href="https://fonts.googleapis.com/css2?family=DM+Sans:wght@400;700&family=DM+Sans:wght@400&display=swap" rel="preload" as="style"><link href="https://fonts.gstatic.com" rel="preconnect" crossorigin="true"><meta charset="utf-8">
正如你在上面看到的,它全部在 1 行中,直到