Google AutoML自然语言多标签文本分类的输入数据集的格式

时间:2018-09-28 15:06:47

标签: google-cloud-nl google-natural-language google-cloud-automl-nl

对于Google AutoML自然语言多标签文本分类,输入数据集的格式应该是什么?我知道对于多类分类,我需要一列文本和另一列标签。标签列每行包含一个标签。

每个文本都有多个标签,并且我想进行多标签分类。我尝试每个标签有一个列和一个热编码,但是却收到此错误消息: 最多支持1000个标签。找到了9823个标签。

3 个答案:

答案 0 :(得分:2)

起初非常令人困惑,但后来我设法在文档中找到了格式,该格式是CSV文件,例如:

text1, label1, label2 text2, label2 text3, label3, label2, label1

解析器无法理解带有以CSV格式保存的NULL单元格的表,例如:

text1, label1, label2, text2, label2,, text3, label3, label2, label1

我不得不从熊猫生成的CSV文件中手动删除多余的逗号。

答案 1 :(得分:0)

每个标签只需要一列。如果少于1000个标签,则说明您的CSV文件中可能有一个错误,解析器对此感到困惑,并认为示例文本中的某些标记是标签。请确保您的文本正确地用引号引起来。

答案 2 :(得分:0)

Google AutoML已更新其解析器。可以使用以下格式:

text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,

至少在2019年1月27日对我有用