考虑有n行类似于下面的文本:
“Sony KDL46NX720 BRAVIA 46”3D LED背光高清电视 - 1080p,1920 x 1080,16:9,120Hz,HDMI,USB,WiFi就绪»Tiger Direct的售价为1148.99美元“
“三星NV40 10.5万像素数码相机 - 银色 - 3倍变焦镜头”,eBay售价64.99美元“
“Gateway NV57H27u 15.6”笔记本电脑,英特尔酷睿i3-2310M(2.10GHz),4GB DDR3内存,500GB硬盘,DVD超级多驱动器,Windows 7家庭高级版64位(粉色) - LX.WZF02 .002»在Buy.com购买$ 399.99“
我想解析这些字符串并将它们分类为“电视,相机,笔记本电脑”等。
文本属性可能相似也可能不相似。
如何全面完成这项工作?
我应该使用哪些代码/工具?
用什么语言?
我不想进行关键字搜索。 可以使用类/属性逻辑对此字符串进行分类吗?
我可以使用Protege构建类/子类层次结构吗?
我对这个数据挖掘领域完全陌生。请原谅我的无知!
提前致谢。
答案 0 :(得分:0)
定期表达,即使是javascript也可以完成工作
编辑:
var criteria = { camera : { identifier : /.*camera.*/ , resolution : /.*(\d+)\s*x\s*(\d*).*/ , value : /.*$(\d+).*/ , ... }, notebook : { identifier : /.*notebook.*/ , ram : /.*(d+)GB\s*(DDR.).*/ ... } ... }
然后编写一个使用此结构来分析每一行的简单引擎
编辑2:
这根本不容易,因为你需要提供某种知识数据库,但是可行的,你可以用这样的页面来提供它。
http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation
但是可以为多人或超过一天工作,具体取决于您希望代码的智能程度。