对于经常浏览别墅的用户,在对其“二手房”的搜索上可加上“别墅二手房”等关联词汇。 意图识别 意图识别指通过各种方法,对用户的qery进行分析,确定用户需求的过程。用户意图可分为精准意图和模糊意图。 精准意图识别一般根据用户的qery,检索其用户意图精准对应的item。模糊意图识别一般可以采用基于模板规则、行为统计反馈、深度学习等方法。由于方法较为繁杂,此处不做详细介绍,若感兴趣的读者可自行检索相关文章 通过意图识别:我们可以得到qery相关词汇“朝阳”、“两居”、“二手房”,代表的实体含义为 {Region:’朝阳’;Hose Tye:’两居’; Hose Stts:’二手房’}。
权赋 权赋是指在文本处理中对词项term进行权重计算 约旦电话数据 和权重赋予的过程。TF-IDF、TF-DF、M、概率模型、隐语义分析、基于知识图谱的算法等。 房产信息具备高度结构话特征,因此在项目初期,使用权重计算的场景较为稀少。而在处理房产资讯的检索时,可以使用该方法,进行数据处理。 敏感信息 敏感信息:qery分析中,对敏感信息如违法、隐私等信息进行识别和过滤的过程。可通过基于规则的方法、基于机器学习、基于深度学习的方法等实现 召回 召回是根据处理过的用户qery,在数据库查询符合条件数据的过程。
召回是搜索引擎中的重要环节,垂直搜索引擎亦不例外。召回策略决定着搜索结果的质量。例如,用户想要寻找北京的房源,若召回的是上海的房源,那么排序再好,也对用户的需求解决没有任何帮助。 除了召回策略外,数据质量也至关重要。在互联网房产行业,房源数据主要来自用户发布和商家发布,资讯的数据来源是多方的,包括企业发布、用户发布、第三方公开资讯等。 除了内容信息外,用户行为和用户日志数据也需进行储存,它们是召回策略的重要参考依据。