我正在寻找有关阅读食谱食谱的人工智能技术的研究(已发表)。食谱是一个非常有限的领域,可能在自然语言识别引擎中具有一定程度的准确性。
我想到的是编写一个程序,允许将配方从Web浏览器复制/粘贴到AI中,并通过“阅读”配方来确定标题,作者,成分,说明,营养信息等。我也希望能够处理PDF文件(我有一个大集合),也许只是使用复制/粘贴。
输出将是某种(标准)基于XML的格式,可以由食谱组织者读取。
我考虑过博士或硕士水平的工作。
答案 0 :(得分:2)
您可能认为相关的AI的一个子字段是 information extraction 。
信息提取算法通常使用规则(例如正则表达式)来识别文本中的实体和关系。这些规则既可以手工定义(即Suiseki算法),也可以用有监督的机器学习算法(即RAPIER,Wrapper Induction,条件随机场)学习。
例如,信息提取算法可能会从作业发布中获取数据:
Job Title
:高级DBMS顾问
Location
:达拉斯,德克萨斯州
Responsibilities
:DBMS Applications顾问与项目团队合作,定义基于DBMS的解决方案,支持电子商务,销售人员自动化和客户服务应用程序的企业部署。
Desired Requirements
:3 - 5年exp。使用Visual Basic,C / C ++,Powerbuilder,Progress等开发Oracle或SQL Server应用程序。最近在dev中安装和配置Oracle或SQL Server的经验。和部署环境
Desired Skills
:了解UNIX或NT,脚本语言。了解结构化软件工程和项目管理的原则
...并将其提取到此模板中:
title
:高级DBMS顾问
state
:TX
city
:达拉斯
country
:美国
language
:Powerbuilder,Progress,C,C ++,Visual Basic
platform
:UNIX,NT
application
:SQL Server,Oracle
area
:电子商务,客户服务
required years of experience
:3
desired years of experience
:5
Ray Mooney和他在德克萨斯大学奥斯汀分校的小组在信息提取方面做了大量工作。以下是一些可能成为良好起点的参考文献: