刮痧" a"标签b / w" p"使用JSoup的标签

时间:2018-03-19 10:27:35

标签: java regex web-scraping jsoup

我正在抓取一个网站,我感兴趣的一段包含许多 a 标签。情况如下:

function test_storefront_category_filtering( $args ) {
    $args['ids'] = '56,23,26';
    return $args;
}
add_filter('storefront_product_categories_shortcode_args','test_storefront_category_filtering' );

我成功提取 p 标记内的所有文字,但 a 标记的文字除外。因此,文本的连续性会丢失,并且变得非常难以理解。

我需要将 p 标记内的所有内容解压缩为文本。有办法吗?

1 个答案:

答案 0 :(得分:2)

从文档中,您希望在p元素上使用text方法:

  

获取此元素及其所有子元素的组合文本。空格被标准化和修剪。

     

例如,给定HTML <p>Hello <b>there</b> now! </p>p.text()会返回"Hello there now!"

     

<强>返回:

     

未编码的标准化文本,如果没有,则为空字符串。

(与ownTexttextNodes对比。)