我需要解析从Chrome,Firefox和IE等浏览器导出的书签列表。也许甚至谷歌等。
我玩过并做了类似这个reMatchNoCase("(<h3)(.*?)(</dl>)",myfile1)
循环的事情。然后我在reMatchNoCase("(<dt[>])(.*?)(</a>)",i)
/ h3
中使用dl
标签,然后很多清理,但它真的不可靠。
问题在于,他们使用h3
标记包围的dl
标记,然后是其中的书签。我不能只解析所有网址,因为我想在浏览器中获取类别。
感谢。
答案 0 :(得分:3)
如果是XHTML,请使用XPath
如果不是,那就不容易了。搜索https://stackoverflow.com/search?q=parse+html
你能考虑使用混合方法,首先在客户端解析jQuery并发布到CF吗?