我正在做一个项目,要求我对文档进行排序以与主题匹配。
例如,我有4个主题,分别是讲师,导师,实验室和考试。 我有一些句子是:
现在我想将这些句子整理到上面的主题中,结果应该是:
我进行了研究,发现的最多指示是使用LDA主题建模。但是似乎无法解决我的问题,因为据我所知,LDA支持在文档中标识主题,并且不知道如何手动预先选择主题。
有人可以帮我吗?我坚持下去。
答案 0 :(得分:5)
这是一个比字符串匹配=)更聪明的示例
让我们考虑一下:
是否可以将每个单词转换为矢量形式(即浮点数数组)?
是否可以将每个句子转换为相同的矢量形式(即,与该单词的矢量形式具有相同维数的浮点数组?
首先让我们获取句子列表中所有可能的单词的词汇表(我们称之为语料库):
>>> from itertools import chain
>>> s1 = "Lecture was engaging"
>>> s2 = "Tutor is very nice and active"
>>> s3 = "The content of lecture was too much for 2 hours."
>>> s4 = "Exam seem to be too difficult compare with weekly lab."
>>> list(map(word_tokenize, [s1, s2, s3, s4]))
[['Lecture', 'was', 'engaging'], ['Tutor', 'is', 'very', 'nice', 'and', 'active'], ['The', 'content', 'of', 'lecture', 'was', 'too', 'much', 'for', '2', 'hours', '.'], ['Exam', 'seem', 'to', 'be', 'too', 'difficult', 'compare', 'with', 'weekly', 'lab', '.']]
>>> vocab = sorted(set(token.lower() for token in chain(*list(map(word_tokenize, [s1, s2, s3, s4])))))
>>> vocab
['.', '2', 'active', 'and', 'be', 'compare', 'content', 'difficult', 'engaging', 'exam', 'for', 'hours', 'is', 'lab', 'lecture', 'much', 'nice', 'of', 'seem', 'the', 'to', 'too', 'tutor', 'very', 'was', 'weekly', 'with']
现在,通过使用词汇表中单词的索引,让我们将4个关键字表示为矢量:
>>> lecture = [1 if token == 'lecture' else 0 for token in vocab]
>>> lab = [1 if token == 'lab' else 0 for token in vocab]
>>> tutor = [1 if token == 'tutor' else 0 for token in vocab]
>>> exam = [1 if token == 'exam' else 0 for token in vocab]
>>> lecture
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
>>> lab
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
>>> tutor
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]
>>> exam
[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
类似地,我们遍历每个句子并将其转换为向量形式:
>>> [token.lower() for token in word_tokenize(s1)]
['lecture', 'was', 'engaging']
>>> s1_tokens = [token.lower() for token in word_tokenize(s1)]
>>> s1_vec = [1 if token in s1_tokens else 0 for token in vocab]
>>> s1_vec
[0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0]
对所有句子重复相同的操作
>>> s2_tokens = [token.lower() for token in word_tokenize(s2)]
>>> s3_tokens = [token.lower() for token in word_tokenize(s3)]
>>> s4_tokens = [token.lower() for token in word_tokenize(s4)]
>>> s2_vec = [1 if token in s2_tokens else 0 for token in vocab]
>>> s3_vec = [1 if token in s3_tokens else 0 for token in vocab]
>>> s4_vec = [1 if token in s4_tokens else 0 for token in vocab]
>>> s2_vec
[0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0]
>>> s3_vec
[1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0]
>>> s4_vec
[1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1]
现在,给定句子和单词的矢量形式,您可以使用相似性函数,例如cosine similarity:
>>> from numpy import dot
>>> from numpy.linalg import norm
>>>
>>> cos_sim = lambda x, y: dot(x,y)/(norm(x)*norm(y))
>>> cos_sim(s1_vec, lecture)
0.5773502691896258
>>> cos_sim(s1_vec, lab)
0.0
>>> cos_sim(s1_vec, exam)
0.0
>>> cos_sim(s1_vec, tutor)
0.0
现在,更系统地进行此操作:
>>> topics = {'lecture': lecture, 'lab': lab, 'exam': exam, 'tutor':tutor}
>>> topics
{'lecture': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
'lab': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
'exam': [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
'tutor': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]}
>>> sentences = {'s1':s1_vec, 's2':s2_vec, 's3':s3_vec, 's4':s4_vec}
>>> for s_num, s_vec in sentences.items():
... print(s_num)
... for name, topic_vec in topics.items():
... print('\t', name, cos_sim(s_vec, topic_vec))
...
s1
lecture 0.5773502691896258
lab 0.0
exam 0.0
tutor 0.0
s2
lecture 0.0
lab 0.0
exam 0.0
tutor 0.4082482904638631
s3
lecture 0.30151134457776363
lab 0.0
exam 0.0
tutor 0.0
s4
lecture 0.0
lab 0.30151134457776363
exam 0.30151134457776363
tutor 0.0
我想你明白了。但是,我们发现s4-lab和s4-exam的分数仍然并列。于是问题就变成了“有办法使它们分开吗?”您将跳入以下的兔子洞:
如何最好地将句子/单词表示为固定大小的向量?
用于比较“主题” /单词与句子的相似性功能是什么?
什么是“主题”?向量实际上代表什么?
上面的答案通常是表示单词/句子的单向向量。除了简单地比较字符串以“识别与主题相关的句子?”之外,还有很多复杂性。 (aka文档聚类/分类)。例如。一个文档/句子可以有多个主题吗?
请查找这些关键字以进一步理解“自然语言处理”,“文档分类”,“机器学习”问题。同时,如果您不介意,我想这个问题就很接近了,因为“范围太广” 。
答案 1 :(得分:0)
我假设您正在读取文本文件或其他内容。这就是我要做的事情。
keywords = {"lecture": 0, "tutor": 0, "exam": 0}
with open("file.txt", "r") as f:
for line in f:
for key, value in keywords.items():
if key in line.lower():
value += 1
print(keywords)
这会在每一行中搜索关键字词典中的任何单词,如果找到匹配项,它将增加该键上的值。
您不需要任何外部库或任何其他东西。
答案 2 :(得分:0)
解决方案
filename = "information.txt"
library = {"lecture": 0, "tutor": 0, "exam": 0}
with open(filename) as f_obj:
content = f_obj.read() # read text into contents
words = (content.lower()).split() # create list of all words in content
for k, v in library.items():
for i in words:
if k in i:
v += 1
library[k] = v # without this line code count will not update
for k, v in library.items():
print(k.title() + ": " + str(v))
输出
(xenial)vash@localhost:~/pcc/12/alien_invasion_2$ python3 helping_topic.py Tutor: 1 Lecture: 2 Exam: 1 (xenial)vash@localhost:~/pcc/12/alien_invasion_2$
此方法将为您计算重复次数
享受!
答案 3 :(得分:-2)
只需在所需主题之后命名变量
lecture = 2
tutor = 1
exam = 1
您可以使用variable_name += 1
来递增变量