我正在寻找一个Web服务,浏览器扩展或其他任何直接提取给定网页中包含的任何和所有语义数据的内容,只要该语义数据遵循用于的任何现代标准中的任何一个。在网页中嵌入语义信息。不知怎的,我找不到任何有用的东西。我可以找到许多“语义爬虫”,但没有工具可以显示您在给定网页上手头的语义数据。
我很高兴获得指向任何此类工具的指针,如果存在的话。 我无法理解人们在没有它的情况下如何调试或开发语义收集器.......
我列出了一些相关标准作为此问题的标签(请参阅下面通常显示的问题标签),但此列表不应视为详尽无遗。
谢谢!
答案 0 :(得分:3)
对于一些好的起点,您可以考虑:
Sindice可能是其中最普遍的,其他大多数都专注于RDFa(我自己的偏见,对不起)。您的选择可能取决于您认为的语义数据(例如,您是否希望像<title>
这样的HTML5语义?对于RDFa我发现Apache的Any23最适合我的需求,具有良好的API,灵活的格式和准确的提取。
很好的问题,我很想知道其他人最推荐的工具。 W3C的longer list可能略有过时。
答案 1 :(得分:1)
Yandex还有tool来验证嵌入式语义标记。还有一些doc可用。它适用于微数据,schema.org,opengraph,rdfa,微格式。不仅仅是微格式,你可以从标题中得出结论:)
如果您正在寻找开源工具,那么Github上有强大的库RDFLib。它做了很多,特别是解析。
该库包含RDF / XML,N3,NTriples,N-Quads,Turtle,TriX,RDFa和Microdata的解析器和序列化器。
答案 2 :(得分:0)
对于RDF数据,有Tim Berners-Lee的Tabulator。可用作Web应用程序(分别为FLOSS JavaScript)和Firefox附加组件的浏览器。好吧,似乎不再需要维护(?)。
对于RDFa,有一个Firefox加载项RDFa Developer。
对于页面头部链接的RDF文件,有Firefox-addon Semantic Radar。
另一个Firefox插件是OpenLink Data Explorer。