我需要从html字符串中获取“纯文本”我正在使用Html.fromHtml工作得很好,但我注意到有时HTML有标签,虽然很好地清除标签,但不会删除内容。
我认为这种行为有道理,但不符合我的需要。你知道如何删除html里面的标签吗?我有一些额外的字符串处理吗? (比如子串,regexp等......)。
我读到了TagHandler,但我不确定是否可以解决我的问题,似乎可以处理其他标签而不删除特定标签的内容。
答案 0 :(得分:0)
你可以尝试替换它,比如
replaceAll(""">([a-Z0-9]*)<""", "")