Python是一个开源的词汇列表,按价值或类别进行比较

时间:2013-06-23 10:04:38

标签: python nlp

我倾向于经常做笔记,自从平板电脑革命以来,我一直以电子方式接受它们。我一直试图看看我是否可以找到记笔记的方式。因此,我整理了一个小小的黑客来加载笔记并过滤掉专有的名词和绒毛,留下我使用的关键词列表。

import os
import re

dr = os.listdir('/home/notes')
dr = [i for i in dr if re.search('.*txt$',i)]
ignore = ['A','a','of','the','and','in','at','our','my','you','your','or','to','was','will','because','as','also','is','eg','e.g.','on','for','Not','not']
words = set()
d1 = open('/home/data/en_GB.dic','r')
dic = d1.read().lower()
dic = re.findall('[a-z]{2,}',dic)
sdic = set(dic)
for i in dr:
    a = open(os.path.join('/home/notes',i),'r')
    atmp = a.read()
    atmp = atmp.lower()
    atmp = re.findall('[a-z]{3,}',atmp)
    atmp = set(atmp)
    atmp.intersection_update(sdic)
    atmp.difference_update(set(ignore))
    words.update(atmp)
    a.close()

words = sorted(words)

我现在有一份约15,000个单词的列表,我在记笔记时经常使用这些单词。手工排序会有点难以管理,我想知道是否有一个开源库 positive-negative-neutraloptimistic-pessimistic-indifferent或其他任何形式的单词列表都可以运行单词列表。

在一个完美的场景中,我也可以通过某种形式来运行它,这样我就可以将这些词组合成意义簇,以便高度了解我最常用的术语。

有没有人知道是否有任何此类列表,如果有,我将如何在Python中使用它们?

由于

1 个答案:

答案 0 :(得分:1)

我在Twitter上找到了用于Twitter情绪分析的单词列表:http://alexdavies.net/twitter-sentiment-analysis/

它包含了如何使用它的示例Python代码。

另请参阅:Sentiment Analysis Dictionaries