我正在开发房地产IDX解决方案,并且需要一些帮助来确定最合适的搜索和匹配算法,并将其作为后端开发过程的一部分。
我正在开发的解决方案允许用户使用固定的搜索词(例如城市,州,邮政编码,标价,卧室,浴室,房地产类型等)搜索房地产。属性列表将在前端GUI上返回。在此返回列表中,还将针对返回的每个属性显示一些财务指标。
为了为返回的每个属性计算这些财务指标,需要根据输入的静态搜索词选择一些可比较的属性。为了找到最合适的可比较属性,我还需要将MLS中包含的693个其他数据类别与静态搜索中返回的属性进行匹配(所有属性在这693个数据字段中都有数据,可能是成千上万个属性!) 。在这693个字段中,大多数是字符串,字符串列表,布尔值,数字,日期等。系统生成合适的匹配项后,将根据最匹配的数据字段对属性进行排名,并计算财务指标。
话说回来,什么能用来确保我找到最准确的匹配的最佳搜索和匹配算法是什么?我已经对tfidf,boyer-moore,蛮力搜索和Apache Lucene进行了一些研究,但并不确定要使用哪种方法(可能都不是最好的方法)。
我没有编程背景(如果还不很清楚),但是正计划将此信息传递给我的开发人员。任何帮助,将不胜感激!