使用正则表达式剥离HTML和&标记

时间:2019-02-01 05:31:03

标签: javascript html regex

我正在从新闻页面(在同一站点内)提取HTML代码,并希望从中剥离所有HTML标签。目前,除特殊字符(&“)等外,所有标签均已剥离。我已经仔细检查了所有stackoverflow帖子,找不到任何有效的方法。也许这就是我定义函数的方式。

我已经尝试对-item.cleanedHtml = item.PublishingPageContent.replace(/ ] +> / gi,'');使用多个差异

但是结果要么添加回HTML标记,要么根本不显示文本。在[]中,我尝试添加“或just&以查看是否有帮助。我还尝试更改整行,并使用其他我可以找到的建议,但无济于事。

_blah.controller('myNewsController', ['$scope','newsService', function($scope,newsService) {
        newsService.getNews().then(function(newsItems){
            for (var i = 0; i < newsItems.length; i++) {
                var item = newsItems[i]; 
                item.cleanedHtml = item.PublishingPageContent.replace(/<\/?[^>]+>/gi, '');
                item.cleanedHtmlFun = item.cleanedHtml.replace(/"/gi, '').replace(/'/gi, '');
                item.imageUrl = getImageUrlfromSrc(item.File.Properties.PublishingPageImage,item);
            }
            $scope.news = newsItems;            
        });
    }]);

我希望输出显示为:Tom&Jerry报道

“我得到的是:如Tom&amp; Jerry所报道”

0 个答案:

没有答案