如何以可视方式设计mashup查询以进行编程提取

时间:2009-11-29 16:13:43

标签: rss extract etl mashup

我正在开发一个从互联网页面获取各种输入的应用程序,而每个信息片段来自不同的位置(mashup)。 我想通过可视化工具生成mashup构建块(片段)。 你知道可以用于这样一个项目的类似东西吗? (已经控制,示例代码,文章等) 首选开发环境是.NET - 但不是强制性的。

1 个答案:

答案 0 :(得分:0)

IMO的主要挑战是以语义形式从每个Feed中提取适当的信息。维基百科将mashup描述为:

  

有许多类型的mashup,例如   作为消费者mashup,数据mashup和   企业mashup。最普遍的   mashup的类型是消费者mashup,   针对普通大众。

     

数据mashup结合了类似的类型   来自多个媒体和信息   来源为单一表示。   一个例子是AlertMap,它是   结合来自200多个来源的数据   与恶劣天气有关,   生物危害威胁和地震   信息,并显示在一个   世界地图;另一个是芝加哥   犯罪地图,表明犯罪   芝加哥的犯罪率和地点。

经典的混搭 - 芝加哥犯罪 - 是有效的,因为日期和地理位置等关键信息在语义上是可用的。其他类型的公共信息是人员,组织和特定于域的标识符。

当您发现这些内容时,您可能希望考虑语义Web正在开发的基于RDF的工具。请注意,政府开始在RDF中发布数据,因此我将其视为关键技术

如果您的网页没有立即获得语义信息,您可能需要创建屏幕抓取工具和HTML解析器。这不是很有魅力,没有特殊的工具,往往只是努力工作。