我有一个字符串,其中嵌入了Markdown标记。我不想将Markdown编码为其他任何东西,我只想撕掉所有标签。
我怎样才能快速完成?我需要将此作为批处理工作的一部分,处理大约500万条文本,因此速度非常重要。
我看了MarkdownSharp,并使用了Transform
,但我不确定这是最好的方法。我只想要纯文本输出,里面没有标签。我甚至考虑去除正则表达式,但我不确定性能最佳的选项是什么。
答案 0 :(得分:3)
您可以使用MarkdownSharp或任何其他类似的库(我推荐Strike,因为它速度惊人!)将Markdown转换为Html,然后使用HtmlAgilityPack提取文本。
更快的选择,但更多的工作,将修改现有的Markdown解析器,以生成纯文本。