应用错误收集

来自网站的智能数据提取算法

时间：2012-06-14 08:35:33

标签： regex algorithm data-extraction

我正在建立一个交易聚合器，所以我需要一个可以从某些网站提取数据的爬虫：价格，折扣，图像，坐标和cource交易名称。

你知道任何教程，电子书或能帮助我的东西吗？对于图像和坐标和折扣，我有一个解决方案和模式：

image：最大的图像永远是交易的主要形象
折扣：折扣始终是50到99之间的数字，并且始终具有“％”符号
坐标：总是十进制数，所以我用正则表达式

如何获得以下物品？

交易名称？
价格？

您知道任何有用的数据提取算法吗？

1 个答案:

答案 0 :(得分：1)

我建议你使用基于XPath的scraper。例如Web-Harvest

或者，如果你想分析原始文本，我建议使用状态机解析器来识别文本的模板部分。

请看这个主题：Are there APIs for text analysis/mining in Java?