为短文本片段建议语义标签

时间:2012-01-09 21:29:03

标签: python tags semantics named-entity-recognition

我有兴趣为发布短文本片段的用户生成建议的语义标签列表(通过Freebase,Wikipedia或其他系统的链接)。我不打算“理解”文本真正所说的内容,甚至自动标记它,我只是想向用户建议他/她的帖子最可能的语义标签。我的主要目标是强制用户在语义上进行标记,从而始终如一地进行标记而不是用不明确的文本字符串进行编写。如果市场上有一个功能合理且价格合理的工具,我会用它。我还没有找到这样的工具,所以我正在寻找自己的工具。

我的问题首先是,如果有这样的工具,我没有遇到过。我看过Zemanta,AlchemyAPI和OpenCalais,他们似乎都没有提供我需要的服务。

假设我正在编写自己的文章,我会用Python编写它(除非有一个非常令人信服的理由使用其他东西)。我的第一个猜测是搜索与Freebase中的“实体”匹配的n-gram并将它们作为标签建议,也许在实体的描述中搜索以获得一些“更聪明”。如果事实证明不足,我会读起来并将脚趾浸入本体水中。由于这是一个非常难题,我不认为我的应用程序需要它的解决方案,我想尽可能避免真正的语义分析。

有没有人有使用语义数据库系统的经验,可以给我一些关于从哪里开始以及期望出现什么样的陷阱的指示?

1 个答案:

答案 0 :(得分:-1)

看看NLTK python库。它包含大量工具,词典和算法。