查找与主题相关的所有文本段落

时间:2014-07-02 02:17:29

标签: regex nlp

给定一组单词["college", "sports", "coding"]和一组文本段落(即facebook帖子),我如何才能看到每个单词与该主题相关的段落?

所以对于大学来说,我怎样才能找到可能与大学相关的所有文本段落?

我是自然语言处理的新手,在正则表达式方面不是很先进。关于如何开始使用的线索,谷歌的正确用语等等。

2 个答案:

答案 0 :(得分:0)

一个基本的想法是迭代你的帖子,看看是否有任何帖子与任何主题相匹配。

假设我们有以下帖子:

  

第1篇:   Dadadad adada college fgdssfgoksh jkhsfdkjshdkj sports hfjkshgkjshgjhsdgjkhskjgfs。

     

帖子2:   体育dadadad adada fgdssfgoksh jkhsfdkjshdkj hfjkshgkjshgjhsdgjkhskjgfs。

     

第3篇:   编码adskjdsflkshdflksjlg lsdjk hsjdkh kdsafkj asfjkhsa编码fhksajhdf kjhskfhsfd ssdggsd。

以及以下主题:

  

[“大学”,“体育”,“编码”]

正则表达式可以是:(topicName)+

例如:(college)+(sports)+(coding)+

小伪代码:

for every topicName
    for every post
        var customRegex = new RegExp('(' + topicName + ')+');

        if customRegex.test(post) then
            //post matches topicName
        else
            //post doesn't match topicName
        endif
    endfor
endfor

希望它可以给你一个起点。

答案 1 :(得分:0)

精确的字符串匹配不会带您走远,特别是对于文本的小片段。我建议您使用semantic similarity。简单的网络搜索将提供多种实现。