我正在创建一个网页,以显示词云中最新推文中最常出现的单词。它基于nodejs + html。
我从我的server.js文件中获取推文并将文本格式的单词推送到我的html页面。
我的HTML代码:
<script>
var data, twArr;
var data = document.getElementById('data').innerHTML;
data = data.toLowerCase().replace(/object Object/g, '').replace(/[\+\.,\/#!$%@\^&\*{}=:;_`~]/g,'');
data = data.replace(/[0-9]+/g, "");
var twArr = data.split(' ');
<< then I pass twArr to my cloud code>>
</script>
<body>
<p id="data">
{{data}}
</p>
</body>
使用此代码,它会显示所有垃圾词,如网址(https:...)和没有任何含义的词,也会显示常见词,例如,if,is等等。
知道我怎么能删除所有那些垃圾而只是采取有效的措辞?感谢。
答案 0 :(得分:0)
您可以制作列入黑名单的过滤器列表。你已经获得了每个推文的单词列表(在twArr中)。只需在根据您的过滤器列表发送它们之前过滤这些单词。您可以从this问题
获取帮助答案 1 :(得分:0)
你可以列出这样的多个单词,如同
一样例如
var data= "Some words will be empty string now like http if but not https else will be same.";
var mapObj = {
http:"",
if:"",
else:""
};
data= data.replace(/http|if|else\b/, function(matched){
return mapObj[matched];
});
console.log(data);