如何在RAW HTML文件上使用DOM检查器?

时间:2018-04-11 23:20:49

标签: php html google-chrome dom web-scraping

我使用PHP Simple HTML DOM Parser定期从不同网站获取一些信息,使用Chrome的DOM检查器分析如何获取我想要的信息。

特别是一个网站(即TPB)没有适当的HTML代码。因此,Chrome的渲染引擎添加了一些额外的HTML标记来完成标记。我没有意识到这一点,当我的代码没有工作并且没有输出我试图抓取的信息时,我感到困惑。

以下是表格正文的 RAW HTML 代码:

RAW HTML code

现在,相同的代码,但来自 Chrome的DOM检查器

HTML code generated by Chrome

我的问题是,是否可以使用Chrome或其他浏览器/扩展程序/工具来检查RAW HTML代码的DOM,而不是浏览器呈现的代码?

使用Chrome浏览器的优秀检查员而不是阅读格式错误且错误的HTML代码,这将使我的网络抓取更容易。如果有更好的方法,请告诉我。

非常感谢你的帮助:)!

1 个答案:

答案 0 :(得分:0)

根据评论,答案是 NO ,遗憾的是还没有这样的工具。

但是,我发现了另一种有用的方法,虽然有点单调乏味,但却达到了同样的目的。

  1. 在所需页面上按 CTRL + U 以查看其源代码 enter image description here
  2. 复制源代码
  3. 转到https://codebeautify.org/htmlviewer/
  4. 将源代码粘贴在左侧,然后按美化。漂亮的打印源代码将在右侧显示代码折叠,这样可以节省大量时间!
  5. enter image description here

    代码折叠:

    Code folding FTW

    这不是太破旧了,暂时还会工作:)