我注意到在foursquare上他们使用了一个'People Talk About`来提取很多人粗略谈论的句子的短片。对于他们如何实现这一点有什么见解吗?我想利用类似的系统来查看我正在使用的评论信息。示例结果如下所示:
Wifi password is thebookclub, all lowercase. Try the tagini and pinot..." (5 tips)
1)无线密码是“thebookclub”
2)免费wifi密码:thebookclub
3)Wifi:wearetbc pass:thebookclub
4)wifi键是:thebookclub和server是网站
5)无线密码是本书俱乐部,全部小写。尝试tagini和pinotgrouprosé来享用美味的素食午餐!
答案 0 :(得分:0)
让我们假装有一个名为Dictionary
的模块。在这个模块中是一个非常长的短语列表,并附加到这些短语中的每个短语是该短语发生的次数的整数计数。我们还有PostID
,这是帖子本身的独特指标。
发布我的留言时:
I like apples and I am a man.
Dictionary
填充了以下数据:
<Word> - <count> - <PostID>
I - 2 - XY890
like - 1 - XY890
apples - 1 - XY890
and - 1 - XY890
am - 1 - XY890
a - 1 - XY890
man - 1 - XY890
这会被发送到一个更大的Dictionary
(一个“大型字典”,可以发言),其中包含通过推文或帖子发布的所有单词或者有什么内容。
现在,出于某种原因,apples
这个词的流行程度一直在飙升。我们有{100}字数超过100万!让我们找到附加在单词apples
上的十个PostIDs
,并将它们放在一个列表中。