Question

对于Google AutoML自然语言多标签文本分类，输入数据集的格式应该是什么？我知道对于多类分类，我需要一列文本和另一列标签。标签列每行包含一个标签。

每个文本都有多个标签，并且我想进行多标签分类。我尝试每个标签有一个列和一个热编码，但是却收到此错误消息：最多支持1000个标签。找到了9823个标签。

Answer 1

起初非常令人困惑，但后来我设法在文档中找到了格式，该格式是CSV文件，例如：

text1, label1, label2 text2, label2 text3, label3, label2, label1

解析器无法理解带有以CSV格式保存的NULL单元格的表，例如：

text1, label1, label2, text2, label2,, text3, label3, label2, label1

我不得不从熊猫生成的CSV文件中手动删除多余的逗号。

Answer 2

每个标签只需要一列。如果少于1000个标签，则说明您的CSV文件中可能有一个错误，解析器对此感到困惑，并认为示例文本中的某些标记是标签。请确保您的文本正确地用引号引起来。

Answer 3

Google AutoML已更新其解析器。可以使用以下格式：

text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,

至少在2019年1月27日对我有用