在输入上我有一个纯文本(在我的情况下通常是HTML)和一个“语法规范”(某种方式用于从纯文本提取数据到结构化数据),然后在输出上我需要有一些结构化数据(JSON很好,但也许存在更好的东西?)
这个任务有没有库?指定“语法规范”有哪些好方法? 解决此类问题的最佳方法是什么?
答案 0 :(得分:2)
基于语法转换的一些工具:
增加:
答案 1 :(得分:0)
答案 2 :(得分:0)
要解析HTML,你需要一个有点宽松的DOM解析器,这取决于使用你的语法规范解析它的html代码的质量,然后你需要提供一个你想要的数据结构类型图书馆为你做那些事情
答案 3 :(得分:0)
查看jilapi
这会接收非结构化的纯文本,并提供结构化的JSON。
答案 4 :(得分:-1)
如果纯文本文件的结构格式正确,为什么不使用Java DOM API(或JDOM)与DOCTYPE结合来创建DOM对象?从那里,您可以使用类似google-gson库的内容迭代该Object并轻松将其转换为JSON。