我目前正在处理由facebook生成的大量HTML文件,其中包含我的所有帖子。截至目前,数据看起来有点像这样 -
<p>
<div class="meta">Thursday, November 20, 2014 at 1:44pm EST</div>
Alexander listened to Cookie Thumper! by Die Antwoord on Spotify.
</p>
如您所见,一个帖子包含在一个<p>
类中。但是,当我在Chrome和Firefox中渲染元素时,它看起来像这样:
<p></p>
<div class="meta">Thursday, November 20, 2014 at 1:44pm EST</div>
Alexander listened to Cookie Thumper! by Die Antwoord on Spotify.
<p></p>
我以前从未遇到过这种情况,我也不知道为什么会这样。在任何地方都没有时髦的javascript,所有的标题似乎都很好。因为我需要将这些数据转换为JSON数组,并且我打算用JS和PHP来实现它,所以我需要一个容器(我认为)来获取实际的帖子文本。
为什么会发生这种情况?