微数据架构解析器

时间:2017-12-11 13:56:42

标签: c# html-parsing microdata

我想以编程方式解析html内容中的microdata schema(就像Google Structured Data Test Tool做的那样)

例如,如果给定包含JobPostingWebsite架构的html,该工具将检测并返回包含相关属性信息的2个对象JobPostingWebsite

最佳方法是什么?我应该创建XSD架构来验证Html内容还是只使用XPath进行正常的Html处理?有没有好的图书馆呢?

1 个答案:

答案 0 :(得分:2)

我已经创建了一个用于完成此任务的库。该库基于HtmlAgilityPack库。代码已放在Github上:https://github.com/minhnguyenlinknode/MicroSchemaParser

用法:

var microSchemaParser = new MicroSchemaParser(yourHtmlString);

// Detect all supported schemas
List<ISchema> allSupportedSchemas = microSchemaParser.Parse();

// Find a specific schema
var schema = microSchemaParser.Find<ItemListSchema>();

// Check the schema validation
var validateResult = itemListSchema.Validate();