YQL - CDATA]]>使用YQL选择数据时出错

时间:2011-05-01 20:22:57

标签: web-scraping yahoo yql

尝试使用YQL从totalfilm.com抓取数据,但我收到一个奇怪的错误:

  

“字符序列”]]>“除非用于标记CDATA部分的结尾,否则不得出现在内容中。”

select * from html where url="www.totalfilm.com"

link

1 个答案:

答案 0 :(得分:2)

如评论所述,可能需要进行一些捏造以使破碎的XHTML按照您的意愿运行。

以下是一个快速,非常粗略 open data table,它会从(X)HTML页面中剥离任何<![CDATA[]]>(以及{{ 3}}}),在应用可选的XPath表达式之前,就像在普通的html表中一样,来获取你需要的数据。

您可以像以下一样使用它:

use "https://github.com/salathe/yql-tables/raw/examples/data/nocdata.xml" as html;
select * from html where url="www.totalfilm.com"