尝试使用YQL从totalfilm.com抓取数据,但我收到一个奇怪的错误:
“字符序列”]]>“除非用于标记CDATA部分的结尾,否则不得出现在内容中。”
select * from html where url="www.totalfilm.com"
答案 0 :(得分:2)
如评论所述,可能需要进行一些捏造以使破碎的XHTML按照您的意愿运行。
以下是一个快速,非常粗略 open data table,它会从(X)HTML页面中剥离任何<![CDATA[
和]]>
(以及{{ 3}}}),在应用可选的XPath表达式之前,就像在普通的html
表中一样,来获取你需要的数据。
您可以像以下一样使用它:
use "https://github.com/salathe/yql-tables/raw/examples/data/nocdata.xml" as html;
select * from html where url="www.totalfilm.com"