无法理解MALLET实例对象中的数据字段

时间:2016-04-25 03:58:12

标签: mallet

目前我正在处理一个项目并使用MALLET API中的CsvIterator创建一个InstanceList。但是,我不确定MALLET实例对象中的数据字段应该如何格式化。我试图将从一行文本解析的数据写入文件。

我知道数据字段通常是InstanceList中的FeatureVector对象,但我不确定CsvIterator正在寻找什么。

感谢。

1 个答案:

答案 0 :(得分:1)

对于分类或主题建模,输入文件中的“数据”字段应该与原始文档类似,并用空格替换换行符。

Mallet如何理解“数据”字段由您使用的管道决定。这些类定义了将字符串输入转换为FeatureVector的规则。

Csv2Vectors类中实现的默认行为,例如,基于正则表达式将字符串划分为标记,然后将每个标记字符串转换为数据字母表中的要素。管道对象可用于许多常见的转换,例如下壳和删除阻塞。