正如标题中所述,我只是在寻找可能用于获取twitter firehose(或其中一部分)的算法或解决方案,并且
a)确定一般问题 b)对于一个问题,找出可能具有一定程度置信度的相同问题
谢谢!
答案 0 :(得分:3)
<强>(A)强>
我会尝试使用machine learning和Bag of Words model来确定问题。
<强>(B)强>
此问题在Information-Retrieval的世界中被称为“重复检测”或“近似重复检测”。
你至少可以使用语义解释找到彼此非常相似的问题,正如Markovitch和Gabrilovich在其精彩的文章Wikipedia-based Semantic Interpretation for Natural Language Processing中所描述的那样。至少,它将帮助您确定两个问题是否正在讨论相同的问题(即使不相同)。
这个想法是这样的:
t
,条目vector_t[i]
是术语i
的tf-idf分数,因为它与其共同出现术语t
。该想法在文章中有详细描述。阅读3-4页首页就足以理解它。无需全部阅读。 2 修改强>
第二个想法,BoW模型不适合这里,因为它忽略了术语的位置。但是,我相信如果您为提取功能添加NLP处理(例如,对于每个术语,也表示它是预主题还是后主题,并且这是使用NLP procssing确定的),与机器学习相结合会产生很好的效果。
(1)要评估您的分类器,您可以使用cross-validation,并检查预期的准确性。
(2)我知道Evgeny Gabrilovich发布了他们作为开源项目创建的实现算法,只需要查找它。