数据提取 - 需要想法

时间:2011-10-25 20:06:54

标签: parsing data-mining ontology protege


考虑有n行类似于下面的文本:

  • “Sony KDL46NX720 BRAVIA 46”3D LED背光高清电视 - 1080p,1920 x 1080,16:9,120Hz,HDMI,USB,WiFi就绪»Tiger Direct的售价为1148.99美元“

  • “三星NV40 10.5万像素数码相机 - 银色 - 3倍变焦镜头”,eBay售价64.99美元“

  • “Gateway NV57H27u 15.6”笔记本电脑,英特尔酷睿i3-2310M(2.10GHz),4GB DDR3内存,500GB硬盘,DVD超级多驱动器,Windows 7家庭高级版64位(粉色) - LX.WZF02 .002»在Buy.com购买$ 399.99“

我想解析这些字符串并将它们分类为“电视,相机,笔记本电脑”等。

文本属性可能相似也可能不相似。


如何全面完成这项工作?

我应该使用哪些代码/工具?

用什么语言?

我不想进行关键字搜索。 可以使用类/属性逻辑对此字符串进行分类吗?

我可以使用Protege构建类/子类层次结构吗?


我对这个数据挖掘领域完全陌生。请原谅我的无知!

提前致谢。

1 个答案:

答案 0 :(得分:0)

定期表达,即使是javascript也可以完成工作

编辑:

   var criteria = {
      camera : {
         identifier : /.*camera.*/ ,
         resolution : /.*(\d+)\s*x\s*(\d*).*/ ,
         value : /.*$(\d+).*/ ,
         ...
      },
      notebook : {
         identifier : /.*notebook.*/ ,
         ram : /.*(d+)GB\s*(DDR.).*/
         ...
      }
      ...
   }

然后编写一个使用此结构来分析每一行的简单引擎

编辑2:

这根本不容易,因为你需要提供某种知识数据库,但是可行的,你可以用这样的页面来提供它。

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

但是可以为多人或超过一天工作,具体取决于您希望代码的智能程度。