标签: java html
我需要帮助使用java代码来提取围绕html内容的锚文本的一些单词。特别是锚文本之前和之后(两侧)的七个单词(包括HTMl块级元素和标点符号)
答案 0 :(得分:0)
您可以使用regular expression。
答案 1 :(得分:0)
您想从href创建新的URL()并仅获取主机部分吗?看看这堂课。
要查找锚点并获取href属性,我推荐杰里科图书馆。当我需要解析HTML / XML样本并且不需要XML验证时,我总是使用它。它快速且易于使用,并且在项目页面上有很多示例。