给定一组单词["college", "sports", "coding"]
和一组文本段落(即facebook帖子),我如何才能看到每个单词与该主题相关的段落?
所以对于大学来说,我怎样才能找到可能与大学相关的所有文本段落?
我是自然语言处理的新手,在正则表达式方面不是很先进。关于如何开始使用的线索,谷歌的正确用语等等。
答案 0 :(得分:0)
一个基本的想法是迭代你的帖子,看看是否有任何帖子与任何主题相匹配。
假设我们有以下帖子:
第1篇: Dadadad adada college fgdssfgoksh jkhsfdkjshdkj sports hfjkshgkjshgjhsdgjkhskjgfs。
帖子2: 体育dadadad adada fgdssfgoksh jkhsfdkjshdkj hfjkshgkjshgjhsdgjkhskjgfs。
第3篇: 编码adskjdsflkshdflksjlg lsdjk hsjdkh kdsafkj asfjkhsa编码fhksajhdf kjhskfhsfd ssdggsd。
以及以下主题:
[“大学”,“体育”,“编码”]
正则表达式可以是:(topicName)+
例如:(college)+
或(sports)+
或(coding)+
小伪代码:
for every topicName
for every post
var customRegex = new RegExp('(' + topicName + ')+');
if customRegex.test(post) then
//post matches topicName
else
//post doesn't match topicName
endif
endfor
endfor
希望它可以给你一个起点。
答案 1 :(得分:0)
精确的字符串匹配不会带您走远,特别是对于文本的小片段。我建议您使用semantic similarity。简单的网络搜索将提供多种实现。