使用NLP从签到和注释中提取信息

时间:2016-06-12 02:51:59

标签: python apache-spark nlp recommendation-engine bigdata

我们是CS学生,我们正在为我们的全科医生推荐推荐系统。 我们的数据集包含用户和他们访问过的地方,我们希望使用NLP将这些地点转换为活动。 恩。 (商城 - >购物,俱乐部 - >玩......)等等。 如果用户写下评论,我们也可能知道他们正在做什么样的活动。

我们现在有点失落,想知道我们应该从哪里开始,或者我们应该开始寻找什么?

感谢。

1 个答案:

答案 0 :(得分:1)

与此类型的大多数问题一样,有两条路线:

手写

最低的初始成本但最不可扩展的方法是手动定义与数据集中每个位置相关联的操作,并将它们存储在字典中。如果唯一位置的数量很少,您可能只需要很少的努力就可以完成所有相关操作。也可以使用Mechanical Turk等任务租用服务(您可能希望为每个位置聚合多个答案以过滤掉低质量的关联)。

机器提取

另一种方法是使用一些NLP算法根据大量示例学习/提取适当的位置。如果不存在satsifactory数据集,那么你需要自己创建(这是第一种方法的工作量)。一旦你有了语料库,就需要做一些语义角色标记,可以找到一个很好的介绍here