Question

尝试使用YQL从totalfilm.com抓取数据，但我收到一个奇怪的错误：

“字符序列”]]＆gt;“除非用于标记CDATA部分的结尾，否则不得出现在内容中。”

select * from html where url="www.totalfilm.com"

Answer 1

如评论所述，可能需要进行一些捏造以使破碎的XHTML按照您的意愿运行。

以下是一个快速，非常粗略 open data table，它会从（X）HTML页面中剥离任何<![CDATA[和]]>（以及{{ 3}}}），在应用可选的XPath表达式之前，就像在普通的html表中一样，来获取你需要的数据。

您可以像以下一样使用它：

use "https://github.com/salathe/yql-tables/raw/examples/data/nocdata.xml" as html;
select * from html where url="www.totalfilm.com"