来自网站的智能数据提取算法

时间:2012-06-14 08:35:33

标签: regex algorithm data-extraction

我正在建立一个交易聚合器,所以我需要一个可以从某些网站提取数据的爬虫:价格,折扣,图像,坐标和cource交易名称。

你知道任何教程,电子书或能帮助我的东西吗?对于图像和坐标和折扣,我有一个解决方案和模式:

  • image:最大的图像永远是交易的主要形象
  • 折扣:折扣始终是50到99之间的数字,并且始终具有“%”符号
  • 坐标:总是十进制数,所以我用正则表达式

如何获得以下物品?

  • 交易名称?
  • 价格?

您知道任何有用的数据提取算法吗?

1 个答案:

答案 0 :(得分:1)

我建议你使用基于XPath的scraper。例如Web-Harvest

或者,如果你想分析原始文本,我建议使用状态机解析器来识别文本的模板部分。

请看这个主题:Are there APIs for text analysis/mining in Java?