Question

我需要了解应用于非结构化文本的分类和文本提取的一般方法。

我阅读了有关提取非结构化文本的信息。我也有一些机器学习知识。但是我不能把它们放在一起。

训练数据描述了某些实体。

第一栏-索引
第二栏-实体的非结构化描述（按人类分类）
第三栏-实体的结构化描述
第四名-其他栏-从非结构化文本中提取的属性值（可能包含分类值和实值）

注意-结构化描述不包括制造商。

i.| unstructured desc.     |structured desc.                   | %sugar|vol. |manufact. | title| material| color |
--------------------------------------------------------------------------------------------------------------------
4 |  Lemonad 0.5l  gl.     | LEMO - yellow - 4.2% - 0.5l glass | 0.042 | 0.5 | Life Inc. | LEMO | glass | yellow
--------------------------------------------------------------------------------------------------------------------

数据有问题。

可以跳过某些信息（例如示例Life Inc.中的制造商）
索引可以在数据中出现几次，但描述不同，这使我们对其他功能有所了解。

我希望

根据属性训练模型。就是说，如果输入类似于非结构化描述，则该对象可能具有相同的属性值。
识别输入的非结构化文本并以某种方式对其进行解析。

解决方案应该是一个模型，该模型采用非结构化文本并标识描述对象具有哪些属性（体积，糖％，瓶材质等）。

我无法提供数据，这就是为什么我需要逐步的建议或示例的原因。谢谢。

如何基于属性值对训练模型

0 个答案: