应用错误收集

考虑有n行类似于下面的文本：

“Sony KDL46NX720 BRAVIA 46”3D LED背光高清电视 - 1080p，1920 x 1080,16：9,120Hz，HDMI，USB，WiFi就绪»Tiger Direct的售价为1148.99美元“
“三星NV40 10.5万像素数码相机 - 银色 - 3倍变焦镜头”，eBay售价64.99美元“
“Gateway NV57H27u 15.6”笔记本电脑，英特尔酷睿i3-2310M（2.10GHz），4GB DDR3内存，500GB硬盘，DVD超级多驱动器，Windows 7家庭高级版64位（粉色） - LX.WZF02 .002»在Buy.com购买$ 399.99“

我想解析这些字符串并将它们分类为“电视，相机，笔记本电脑”等。

文本属性可能相似也可能不相似。

如何全面完成这项工作？

我应该使用哪些代码/工具？

用什么语言？

我不想进行关键字搜索。可以使用类/属性逻辑对此字符串进行分类吗？

我可以使用Protege构建类/子类层次结构吗？

我对这个数据挖掘领域完全陌生。请原谅我的无知！

提前致谢。

var criteria = { camera : { identifier : /.*camera.*/ , resolution : /.*(\d+)\s*x\s*(\d*).*/ , value : /.*$(\d+).*/ , ... }, notebook : { identifier : /.*notebook.*/ , ram : /.*(d+)GB\s*(DDR.).*/ ... } ... }

数据提取 - 需要想法

1 个答案: