我想解析HTML以从没有服务的网页中读取信息。
使用JavaSE我可能会使用jsoup和HTML清理程序来使HTML格式良好,并在将中间格式作为XML处理之前过滤掉不相关的部分。
然而,使用Codename One的任意库并不是那么简单,因为运行时没有JavaSE的全部范围。
有没有人使用Codename One进行HTML解析,哪种方法最好?
答案 0 :(得分:0)
Codename One中的内置gsub('_\\.', '\\.', paste("plot", "var","m",".pdf", sep = "_"))
# [1] "plot_var_m.pdf"
即使在形成为SGML(格式错误的XML)时也可以解析HTML。它应该产生足够好的结果。
或者您可以使用XMLParser
使用JavaScript加载HTML并使用DOM查询来解析数据,我认为甚至可以在不显示组件的情况下实现,但我并非100%确定这一点。