我想筛选文本(特别是Twitter消息)以查看它们是否与特定主题相关。你在那条路上走了吗?如果是这样,我很想听听你使用的方法。
对于我的情况,只搜索主题关键字会在7%的时间内获得有用的文字;关键字有多种含义,其中一些不是主题。对我来说,自动过滤不一定是完美的;如果提取的消息在80%的时间内与主题相关,我会很高兴。我也愿意丢失10-30%的主题消息。
手动进行第一次传递,有一些特征可以使信息很好,就像某些英语短语一样。其他特征很可能会被拒绝,例如URL,多个哈希标记和其他短语。其他人更难评估。
我可以手动制作一堆正则表达式和相关的权重,然后手动调整,直到我得到我喜欢的输出。那可能会奏效。但我可以列举其他几种可能的方法,我想知道哪些Stack Overflow读者有好运。
谢谢!
答案 0 :(得分:1)
这本身就是一个整个领域!我建议在自然语言处理文献中做一些研究。
有一些临时的方法可以做到这一点,但这些方法非常容易出错:许多误报和漏报。这可能是一个好的开始。
如果您使用关键字,则可以尝试使用相关关键字周围的字词来消除关键字含义(如果它具有多种含义)的歧义。但是,要做到这一点,消除歧义将要求处理后的语料库(一堆文件)能够确定哪些词最常出现在一起,并且可能意味着相同的事情。
您可以测量正在分析的文本与已知类似的文档之间的距离。您需要使用两个文本源中的单词计数,然后比较术语/文档向量。查找“文档向量模型”以获得更彻底的处理。
这是一个很好的项目,但并不简单。