从松散结构的文本中解析价格

时间:2011-01-12 18:18:19

标签: regex algorithm

我正在编写脚本,用于解析论坛上分类广告的价格。

文字结构非常糟糕,有时价格存在,有时它不是。有时用户会在商店中添加相同商品的价格为100欧元的评论,但他们以80欧元的价格出售。我想从这样的广告中获得80欧元的价格。

在其他情况下,他们销售更多不同的商品,每件都有自己的价格,我想得到价格的总和。在其他情况下,他们对购买所有东西的人有特价,在这种情况下,我想得到整套价格,通常低于所有价格的总和。

现在我正在使用一堆正则表达式和一些if-s。我想知道是否有任何算法,可以做这样的事情,但我不知道它们?

2 个答案:

答案 0 :(得分:2)

你真的在谈论文本分析,它超越正则表达式,这只会帮助你提价。你将不得不扫描像'是x欧元,现在要求y欧元'这样的短语。

我建议您获得大量实际样本输入数据,越大越好,您想要生成已知价格。然后,您可以连接分析仪并查看分析仪失败的记录,并尝试找出原因并进行修复,直到您对结果感到满意为止。

Lucene项目有一个分析模块,通常用于准备可能有用的索引文本,您可以规范化输入并编写自己的自定义分析器来处理传入的令牌。我相信它有一个内置正则表达式支持的标记器,但我不记得了。

答案 1 :(得分:0)