我正在编写一个书签,该书签将从网站提取信息并将其发送到用户帐户以供以后使用。这通常包括获取非结构化信息并使其结构化的问题。举个例子,一个业余爱好者想要保存项目以供日后使用。他们需要获得许多部分并遵循说明。在一个博客上,作者可以将说明称为指示或配方或任意数量的同义词。一个人可以使用<li>
标签列出信息以订购步骤,而另一个人可能不会。
将非结构化数据转换为结构化信息的一般策略是什么?是否有其他策略来确定哪些内容相关? (即Instapaper或可读性)
答案 0 :(得分:0)
答案 1 :(得分:0)
这个问题似乎没有一个好的计算机科学答案,所以我决定改变方法,让用户按照自己的意愿组织数据。