如何基于属性值对训练模型

时间:2019-06-20 07:29:56

标签: machine-learning attributes text-recognition

我需要了解应用于非结构化文本的分类和文本提取的一般方法。

我阅读了有关提取非结构化文本的信息。我也有一些机器学习知识。但是我不能把它们放在一起。

训练数据描述了某些实体。

  • 第一栏-索引
  • 第二栏-实体的非结构化描述(按人类分类)
  • 第三栏-实体的结构化描述
  • 第四名-其他栏-从非结构化文本中提取的属性值(可能包含分类值和实值)

注意-结构化描述不包括制造商。

i.| unstructured desc.     |structured desc.                   | %sugar|vol. |manufact. | title| material| color |
--------------------------------------------------------------------------------------------------------------------
4 |  Lemonad 0.5l  gl.     | LEMO - yellow - 4.2% - 0.5l glass | 0.042 | 0.5 | Life Inc. | LEMO | glass | yellow
--------------------------------------------------------------------------------------------------------------------

数据有问题。

  • 可以跳过某些信息(例如示例Life Inc.中的制造商)
  • 索引可以在数据中出现几次,但描述不同,这使我们对其他功能有所了解。

我希望

  1. 根据属性训练模型。就是说,如果输入类似于非结构化描述,则该对象可能具有相同的属性值。
  2. 识别输入的非结构化文本并以某种方式对其进行解析。

解决方案应该是一个模型,该模型采用非结构化文本并标识描述对象具有哪些属性(体积,糖%,瓶材质等)。

我无法提供数据,这就是为什么我需要逐步的建议或示例的原因。谢谢。

0 个答案:

没有答案