在Javascript中停止删除单词

时间:2011-04-12 06:51:27

标签: analytics data-mining javascript stemming

HI我正在寻找一个库,它将从Javascript中的文本中删除停用词,我的最终目标是计算tf-idf然后将给定文档转换为向量空间,所有这些都是{ {1}}。 任何人都可以指向一个图书馆,它会帮助我做到这一点。只有一个图书馆来删除停用词也很棒。

4 个答案:

答案 0 :(得分:4)

我认为没有这样的思考库,你需要下载这些词http://www.ranks.nl/resources/stopwords.html。然后按照text = text.replace(stopword,“”)

中的注释进行替换

答案 1 :(得分:0)

这里有一个用于删除停用词的Javascript库:http://geeklad.com/remove-stop-words-in-javascript

答案 2 :(得分:0)

这是一个带有英语停用词的数组。希望能帮助到你。来自http://www.ranks.nl/stopwords(在之前的回答中提到)。

此外,这可能对您有用。

https://github.com/shiffman/A2Z-F16/tree/gh-pages/week5-analysis

http://shiffman.net/a2z/text-analysis/

var stopwords = [" a","关于","以上","","再次&#34 ;,"反对","所有"," am","","",&#34 ;任何""是"" AREN' T""如""在""是""因为""是""前""是""下面&#34 ;, "之间""既""但""由""可以' T",& #34;不能""可以"" couldn' T""做""没' T&#34 ;,"做""不""没有按' T""这样做""不要' T""向下""在""每个""几个""对于&#34 ;, "从""进一步""具有"" hadn' T""具有",& #34;不是招' T""具有""避难所' T""具有""他&#34 ;,"他' d""他' 11""他' S""她&#34 ;, "在这里""在这里' S""她的""自己""他& #34;"自己""他的""如何""如何' S""我&# 34;," I' d"" I' 11"" I' M"" I'已经""如果""在""到""是"" ISN' T& #34;"它""它' S""它的""本身""让&# 39; S""我""更""最""千万不能' T"&#34的"我""自己""不""也不""不"" "关闭""上""一次""仅""或""其他""应该""我们""我们""自己""列&#34 ;, "在""自己""相同的""山' T""她",& #34;她' d""她' 11""她' S""应该"&#34 ;不该' T""所以""一些""这样的""比""该""即' S""所述""它们的""他们""其中& #34;"自己""然后" "还有""还有' S""这些""它们""它们' d& #34;"它们' 11""它们'再""它们'已经""这&#34 ;,"那些""通过""至""太""下"&#34 ;直到""向上""非常""是"" WASN' T""我们""我们' d""我们' 11""我们'再""我们&# 39;已经""分别为""间没有' T""什么""什么' S" "当""当' S""其中""其中' S""其中& #34;"而""谁""谁' S""人""为何&# 34;,"为什么' S""与""韩元' T""将"&#34 ;不会告发' T""你""你' d""你' 11""你& #39;重""你'已经""的""你""自己"&# 34;自己"];

答案 3 :(得分:0)

使用NLTK library提供的停用词:

stopwords = ['i','me','my','myself','we','our','ours','ourselves','you','your','yours','yourself','yourselves','he','him','his','himself','she','her','hers','herself','it','its','itself','they','them','their','theirs','themselves','what','which','who','whom','this','that','these','those','am','is','are','was','were','be','been','being','have','has','had','having','do','does','did','doing','a','an','the','and','but','if','or','because','as','until','while','of','at','by','for','with','about','against','between','into','through','during','before','after','above','below','to','from','up','down','in','out','on','off','over','under','again','further','then','once','here','there','when','where','why','how','all','any','both','each','few','more','most','other','some','such','no','nor','not','only','own','same','so','than','too','very','s','t','can','will','just','don','should','now']

然后只需将您的字符串传递给以下函数

function remove_stopwords(str) {
    res = []
    words = str.split(' ')
    for(i=0;i<words.length;i++) {
        if(!stopwords.includes(words[i])) {
            res.push(words[i])
        }
    }
    return(res.join(' '))
  }

示例

remove_stopwords("I will go to the place where there are things for me.")

结果

I go place things me.

只需将尚未覆盖的任何单词添加到NLTK数组中即可。