我需要了解应用于非结构化文本的分类和文本提取的一般方法。
我阅读了有关提取非结构化文本的信息。我也有一些机器学习知识。但是我不能把它们放在一起。
训练数据描述了某些实体。
注意-结构化描述不包括制造商。
i.| unstructured desc. |structured desc. | %sugar|vol. |manufact. | title| material| color |
--------------------------------------------------------------------------------------------------------------------
4 | Lemonad 0.5l gl. | LEMO - yellow - 4.2% - 0.5l glass | 0.042 | 0.5 | Life Inc. | LEMO | glass | yellow
--------------------------------------------------------------------------------------------------------------------
数据有问题。
我希望
解决方案应该是一个模型,该模型采用非结构化文本并标识描述对象具有哪些属性(体积,糖%,瓶材质等)。
我无法提供数据,这就是为什么我需要逐步的建议或示例的原因。谢谢。