fflick,mombo等服务会对有关电影的推文进行分析。他们似乎处理了数十万条推文。
他们如何将推文与电影相匹配?例如,假设有一部名为“未知”的电影。他们如何确定一条推文是关于未知的 - 电影还是其他未知的东西?
他们如何收集这么多推文?流媒体API?
他们是否维护一个电影名称列表,并根据此列表检查每条推文,以确定推文是否引用特定电影?
答案 0 :(得分:3)
以下是我的猜测。
当然需要一个电影名称列表。这是将推文修剪为可能可能引用电影的子集的必要的第一步。
电影片名要么可以从单词本身识别(例如“终结者2”),要么要求作者消除歧义(例如“未知” - 或“乱世佳人”,这可能是指电影或书籍。在后一种情况下,将提供各种线索。也许最明显的是:
我希望像上面这样的标准用于根据一些权重分配分类概率,并且已经应用了通常的技术来调整权重以给出良好的预测。我希望采用supervised machine learning方法:基本上,让一些人对几百条推文进行分类,然后在该数据集的某个子集上优化权重以获得性能,最后测试所选权重对于对其余部分进行分类的效果。数据集(这是为了检查是否未发生过度拟合)。