我正在寻找一种使用SQL或C#从页面上的文本中提取相关关键字的好方法。我打算用它来将这些关键字链接到网站的其他部分,以导航到相关内容。这在一些博客中似乎很常见。
答案 0 :(得分:2)
一种简单的方法可能是使用C#下载到内存中,过滤掉HTML标签,Javascript等(即识别真实内容),将其分解为单个单词,过滤与出现频率较高的单词列表任何通用的书面文件,计算文件中出现的每个单词的频率,将出现最多的单词作为关键词。
您需要随着时间的推移开发过滤后的单词列表。
根据您的域名,可能更适合以相反的方式进行此操作,并建立一个特定于域的关键字列表(或关键字组,以便“安全带”和“安全带”等被识别为相同的单词),并找出每个单词或单词组在给定文档中出现的次数。超过某个阈值或前5个等的那些将是与该文档相关联的关键字。
答案 1 :(得分:0)
从Joseph Turian到这个问题的更一般版本有一个很好的信息回答:How do I extract keywords used in text?