如何获得条款的自上而下主题?

时间:2013-06-05 06:44:15

标签: semantics information-retrieval freebase

例如,条款 experience, yrs, ctc必须暗示与foursquare关联的主题作业badge, unlocked

如何从条款中获取主题?我想分析不太正式的英语,如电子邮件,推文等。是否有数据存储库和API?我可以查询Freebase吗?我更喜欢可以自我托管的东西。

2 个答案:

答案 0 :(得分:1)

Freebase包括WordNet,但实际上并没有多少能帮助完成这项任务 - 至少是直接的。正如米格尔对他的问题暗示的那样,如果你有金标准数据,你可以为你的问题训练一个分类器或一组分类器。另一种选择是支付商业服务费用。

答案 1 :(得分:0)

@TomMorris对他的回答非常清楚,我同意FreeBase(或类似方法)只能间接使用,因为全局分类可能没有直接映射到您的问题。

我的建议,以及如果不能提供主题信息我会怎么做:

  1. 将聚类技术应用于您的数据。
  2. 尝试(自动或不自动)决定每个群集的含义。
  3. 假设群集中的所有文档都属于该“类”。
  4. 使用该信息为分类器提供信息。
  5. 主要问题:  1.我不知道您的数据大小,但它可能是群集和/或群集的手动标记的问题。  2.质量可能低于使用人工判断。

    我希望这至少会给你一些提示。