从推文中删除不需要的单词

时间:2015-11-30 04:23:08

标签: javascript twitter

我正在创建一个网页,以显示词云中最新推文中最常出现的单词。它基于nodejs + html。

我从我的server.js文件中获取推文并将文本格式的单词推送到我的html页面。

我的HTML代码:

<script>
var data, twArr;
var data = document.getElementById('data').innerHTML;           
data = data.toLowerCase().replace(/object Object/g, '').replace(/[\+\.,\/#!$%@\^&\*{}=:;_`~]/g,'');
data = data.replace(/[0-9]+/g, "");
var twArr = data.split(' ');

<< then I pass twArr to my cloud code>>
</script>
<body>
 <p id="data">
        {{data}}
 </p>
</body>

使用此代码,它会显示所有垃圾词,如网址(https:...)和没有任何含义的词,也会显示常见词,例如,if,is等等。

知道我怎么能删除所有那些垃圾而只是采取有效的措辞?感谢。

2 个答案:

答案 0 :(得分:0)

您可以制作列入黑名单的过滤器列表。你已经获得了每个推文的单词列表(在twArr中)。只需在根据您的过滤器列表发送它们之前过滤这些单词。您可以从this问题

获取帮助

答案 1 :(得分:0)

你可以列出这样的多个单词,如同

一样
  1. 您需要创建要替换的单词列表,例如http,if,else
  2. 将该列表应用于您的数据
  3. 例如

    var data= "Some words will be empty string now like http if but not https  else will be same.";
    
    var mapObj = {
       http:"",
       if:"",
       else:""
    
    };
    data= data.replace(/http|if|else\b/, function(matched){
      return mapObj[matched];
    });
    
    console.log(data);