标签: regex algorithm data-extraction
我正在建立一个交易聚合器,所以我需要一个可以从某些网站提取数据的爬虫:价格,折扣,图像,坐标和cource交易名称。
你知道任何教程,电子书或能帮助我的东西吗?对于图像和坐标和折扣,我有一个解决方案和模式:
如何获得以下物品?
您知道任何有用的数据提取算法吗?
答案 0 :(得分:1)
我建议你使用基于XPath的scraper。例如Web-Harvest
或者,如果你想分析原始文本,我建议使用状态机解析器来识别文本的模板部分。
请看这个主题:Are there APIs for text analysis/mining in Java?