我有一套文字报纸广告,我想提取出售物品及其价格等信息。这些广告不遵循任何结构化格式。我可以访问数千个这样的广告。
我应该从哪里开始这个项目?是否有一些图书馆可以提供帮助?
由于
答案 0 :(得分:3)
最简单的方法似乎是使用规则和词典。例如,您可以使用简单的正则表解析价格并使用大型项目字典进行检索。
答案 1 :(得分:0)
根据您的编码经验,以及根据文本文件的格式设置,一种方法是将它们导入Excel并使用Text to Columns函数以某种方式将广告的字段拆分为单独的单元格。
例如,如果你有名称:黑车和价格:$ 1000.00 ,那么Excel可以使用文本到列功能设置为在冒号上拆分来轻松拆分它们。 / p>
也许更详细地解释文本文件是如何格式化的。
答案 2 :(得分:0)
如果您不熟悉此概念,可以尝试查看videos的IBM Big Insight Text Analytics。他们的项目正在提取有关IBM股票的价格信息,类似于您的项目。 他们从这个项目开始,一系列视频几乎完成了它。 在此过程中,他们更多地讲授正则表达式。
请注意,此视频可帮助您了解此类项目的工作流程。如果你精通任何具有良好正则表达式支持的编程语言,perl,ruby,python,groovy ...你可以轻松地重复他们的实验。
此外,我从未使用过此产品,但观看了所有这些视频,希望能够更多地了解文本挖掘。 我再说一遍,如果没有这个产品,你可以做到这一切,但当然不那么容易。