在文本中查找字符串的特定模式

时间:2012-06-19 08:38:35

标签: string algorithm pattern-matching text-mining string-search

我正在寻找一种方法来在文本中找到一些特定的模板。例如,如果我想以这样的格式找到文本中的所有引用:

  • Baron,Naomi(2000)字母到电子邮件:英语写作如何演变以及它在哪里,Routledge:伦敦和纽约。

因此,输入文本将返回与此类似的任何内容。有没有任何算法可以解决这个问题。到目前为止我发现的只是用于在文本中搜索类似字符串的算法。

我正在考虑使用正则表达式,但我不知道这是否是最好的方法,因为我需要能够计算某些相似性指数的东西,然后返回得分最高的点击。< / p>

1 个答案:

答案 0 :(得分:0)

您正在寻找的技术称为信息提取。

以下是我对类似问题的回答:

How does Apple find dates, times and addresses in emails?

您可能还需要组合一些命名实体识别。 http://en.wikipedia.org/wiki/Named-entity_recognition