在我的数据库中,我有一个包含html文档的字段。现在必须有可能在这个文件中搜索。但是,可能找不到html标记。所以当我有这样的事情时:
<html>
<head>
<title>Bar</title>
</head>
<body>
<p>
this content my be found
</p>
</body>
</html>
存储在数据库中的文档可能不是xhtml。你能告诉我搜索内容的最佳方法是什么吗?我应该使用正则表达式吗?那么,它会是什么样子?如果没有,我还应该使用其他什么?
答案 0 :(得分:2)
您可以尝试启用Full-Text Search或使用Lucene.Net之类的内容为您索引内容。
答案 1 :(得分:2)
有多少记录?我希望您可能必须使用全文搜索和IFilter来有效地执行此操作。 Html不适合正则表达式 - 很快就可以很难做到非常简单。
如果卷不是很大,你可以使用外部解析应用程序迭代记录,使用HTML Agility Pack(用于.NET)或任何其他您选择的DOM。
但是FTS / IFilter将是我的首选。