对于Google AutoML自然语言多标签文本分类,输入数据集的格式应该是什么?我知道对于多类分类,我需要一列文本和另一列标签。标签列每行包含一个标签。
每个文本都有多个标签,并且我想进行多标签分类。我尝试每个标签有一个列和一个热编码,但是却收到此错误消息: 最多支持1000个标签。找到了9823个标签。
答案 0 :(得分:2)
起初非常令人困惑,但后来我设法在文档中找到了格式,该格式是CSV文件,例如:
text1, label1, label2
text2, label2
text3, label3, label2, label1
解析器无法理解带有以CSV格式保存的NULL单元格的表,例如:
text1, label1, label2,
text2, label2,,
text3, label3, label2, label1
我不得不从熊猫生成的CSV文件中手动删除多余的逗号。
答案 1 :(得分:0)
每个标签只需要一列。如果少于1000个标签,则说明您的CSV文件中可能有一个错误,解析器对此感到困惑,并认为示例文本中的某些标记是标签。请确保您的文本正确地用引号引起来。
答案 2 :(得分:0)
Google AutoML已更新其解析器。可以使用以下格式:
text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,
至少在2019年1月27日对我有用