我在想(危险),大多数网页都是“好内容”,被“垃圾”,广告,加售等所包围。搜索引擎知道这一点,他们看到垃圾并提取他们想要的信息,但我是一个思考....如果我可以包含META中引用的XML / RSS提要,该提取仅包含良好内容,完美形成。
<title>Acne Commercial Soap</title>
<url>http://acne.no/commercial-soap/</url>
<description/>etc
<image/>etc
<related-products>
<title>Acne Commercial Soap Brush</title>
<url>http://acne.no/commercial-soap-brush/</url>
<description/>etc
<image/>etc
</related-products>
这样的事情已经有了标准吗?引用页面中页面的核心内容?我只是穿透了吗?