我正在处理文本摘要问题,即给出大量文本,我想找到最具代表性的“主题”或文本的主题。为此,我使用各种信息理论措施,如TF-IDF,残留IDF和逐点互信息,为我的语料库创建一个“字典”。该词典包含文中提到的重要单词。
我手动筛选了整个50,000个短语列表,这些短语按照他们的TFIDF指标排序,并手工挑选了2000个短语(我知道!这花了我15个小时才能做到这一点......)这是基本事实,即这些对于当然。现在,当我将它用作字典并对我的文本进行简单的频率分析并提取前k个短语时,我基本上看到了主题是什么,我同意我所看到的。
现在我该如何评估这种方法?这里没有涉及机器学习或分类。基本上,我使用一些NLP技术来创建字典,单独使用字典进行简单的频率分析就是给我提供了我正在寻找的主题。但是,我可以对我的系统进行正式分析来衡量其准确性或其他内容吗?
答案 0 :(得分:1)
我不是机器学习专家,但我会使用 cross-validation 。如果您使用例如1000页的文本来“训练”算法(有一个“循环中的人”,但没有问题),那么你可以再拿几百个测试页,并使用你的“top-k短语算法”找到“主题“或”主题“的这些。 测试页面的比例,如果您同意算法的结果,则会给出一个(有些主观的)衡量方法执行情况的方法。