我试图通过标记来获取新闻网站的背景信息。 例如,如果我选择像cnn这样的新闻网站,我会将其加载到我的网站上:
<object data="http://edition.cnn.com/" type="text/html" width="1400" height="700">
<embed src="http://edition.cnn.com/"></embed>
Error: Embedded data could not be displayed. </object>
然后我选择了一篇文章,我需要获得文章的内容。 当我打开源代码时,我发现我需要从标记到最后一个cnn_storypgraphtxt cnn_storypgraph标记(至少在cnn网站中)获取上下文。 我知道在PHP中,我可以按标签名称获取信息:
$doc = new DOMDocument();
@$doc->loadHTML($html);
$p=$doc->getElementById('tag1')->getElementsByTagName('tag2')->item(0);
echo $p->nodeValue;
但只有当tag1将tag2保留在内部时,这才有效。 在新闻网站中,很难找到包含其他标签的开放标签,所以我不能使用它。 我想知道的是,是否有可能以某种方式在php或javascript中获取文章以及如何实现这一目标的一些指导? 任何建议或提示将不胜感激。