我正在研究Chrome Extension
,我有兴趣获取网站的主要内容。例如,我想获得文章的文本,但我不想从菜单中获取文本。我想要这个,所以我可以用这个文字来说话。
我完全不知道如何开始。我宁愿不使用ID和标签过滤,因为这些不够一致。做我想要的最好的方法是什么? (它可以是纯铬)
答案 0 :(得分:0)
您唯一的选择是使用ID,类或标签进行过滤。大多数执行此类操作的应用都会在engadget.com,reddit等网站上使用常用内容,类,标签等白名单。如果网站在HTML5中使用语义标记,则您的任务会更轻松,但你不能指望每个人都使用它。
你不会得到能够抓住"文章的东西。从任何地方的任何地方您唯一的选择是选择您想要处理的某些网站,手动分析其标记,并相应地对您的应用进行编码。
另一个想法是,您可以从网站上获取RSS或原子提要,这将使事情变得更容易。