在构建自动分类文本的系统之前,我需要手动将一大堆样本分类为训练/评估集。 是否有一些现有的工具可以让我手动标记成千上万的物品而不会有太多的痛苦?如果没有,那么将一些东西组合在一起的最快方法是什么?
举个例子,假设你有一堆Twitter消息。你想把它们放在特定的桶中:快乐,悲伤,有趣,愤怒和垃圾邮件。有些东西放在多个桶中。您可以将所有内容转储到文件中并使用vi插入一些标记,但这很容易出错并且有点慢。更重要的是,拥有一个漂亮的界面意味着你可以和同事谈谈做一大堆工作。 Web,GUI或控制台并不重要;只要它快速而简单。有什么类似的吗?
我希望是的,虽然我找不到谷歌的任何东西。如果我必须建立一些东西,是否有一个好的开始?通过翻找,我的第一印象是Rails + jQuery + acts_as_taggable_on + jQuery Tokenizing Autocomplete似乎没问题,但我对其他事情持开放态度。
答案 0 :(得分:1)
我认为Rails + jQuery + acts_as_taggable_on + jQuery Tokenizing Autocomplete,就像你提到的那样是一个不错的选择!
答案 1 :(得分:1)
Amazon Mechanical Turk https://www.mturk.com/mturk/welcome专为您描述的用例而设计。它允许您上传数据,创建表单,然后将您的分类分配给人员,然后生成返回文件。
答案 2 :(得分:1)
为什么不简单地使用Excel(或任何其他电子表格程序)?
只需在第一列中显示消息(要标记),然后创建一个小宏,以允许用户(您/个人/ ...)单击相邻的单元格以选择其中一个存储桶。如果要将消息放入多个存储桶,请让用户单击下一个相邻的单元格以选择另一个存储桶。 (如果需要,可以通过限制可编辑的单元格数来确定所选存储桶的最大数量。)
然后,您将以一种非常容易上传到数据库的格式标记所有消息,以便进一步处理。
这里没有高科技,这对那些可能不懂电脑的同事来说是个好消息。每个人都知道如何将数据输入电子表格!
答案 3 :(得分:0)
如果你想要高科技(与我之前的低技术Excel答案相比),你可以使用Weka Tools,其中“...包含用于数据预处理,分类,回归,聚类的工具,关联规则和可视化。它也非常适合开发新的机器学习方案。“
答案 4 :(得分:0)
就我而言,我最终使用Ruby的HighLine模块构建了一些用于命令行界面的东西。它不像基于Web的界面那么华丽,但它构建简单,并且由于其单字符模式,使用起来非常快。