Question

我试图通过标记来获取新闻网站的背景信息。例如，如果我选择像cnn这样的新闻网站，我会将其加载到我的网站上：

<object data="http://edition.cnn.com/" type="text/html" width="1400" height="700"> 
<embed src="http://edition.cnn.com/"></embed> 
Error: Embedded data could not be displayed. </object>

然后我选择了一篇文章，我需要获得文章的内容。当我打开源代码时，我发现我需要从标记到最后一个cnn_storypgraphtxt cnn_storypgraph标记（至少在cnn网站中）获取上下文。我知道在PHP中，我可以按标签名称获取信息：

$doc = new DOMDocument();
@$doc->loadHTML($html);
$p=$doc->getElementById('tag1')->getElementsByTagName('tag2')->item(0);
echo $p->nodeValue;

但只有当tag1将tag2保留在内部时，这才有效。在新闻网站中，很难找到包含其他标签的开放标签，所以我不能使用它。我想知道的是，是否有可能以某种方式在php或javascript中获取文章以及如何实现这一目标的一些指导？任何建议或提示将不胜感激。

如何使用javascript或php通过标记从HTML获取上下文

0 个答案: