T-SQL搜索html与正则表达式?

时间:2009-04-21 12:55:05

标签: sql html regex

在我的数据库中,我有一个包含html文档的字段。现在必须有可能在这个文件中搜索。但是,可能找不到html标记。所以当我有这样的事情时:

<html>
  <head>
    <title>Bar</title>
  </head>
  <body>
   <p>
     this content my be found
   </p>
  </body>
</html>

存储在数据库中的文档可能不是xhtml。你能告诉我搜索内容的最佳方法是什么吗?我应该使用正则表达式吗?那么,它会是什么样子?如果没有,我还应该使用其他什么?

2 个答案:

答案 0 :(得分:2)

您可以尝试启用Full-Text Search或使用Lucene.Net之类的内容为您索引内容。

答案 1 :(得分:2)

有多少记录?我希望您可能必须使用全文搜索和IFilter来有效地执行此操作。 Html不适合正则表达式 - 很快就可以很难做到非常简单。

如果卷不是很大,你可以使用外部解析应用程序迭代记录,使用HTML Agility Pack(用于.NET)或任何其他您选择的DOM。

但是FTS / IFilter将是我的首选。