深入理解搜索引擎——开篇

在这里插入图片描述

什么是搜索引擎

搜索引擎,一般分为大搜和垂搜,其中大搜包含我们熟知的google、baidu、搜狗、神马及近期比较活跃的夸克,垂搜包含各领域门户网站的搜索引擎,例如电商搜索(淘宝、天猫、京东及拼多多等等)、本地生活搜索(美团、饿了么及盒马搜索)、资讯、视频搜索(头条、抖音、微博搜索)等。

从20世纪90年代初期发展至今,搜索引擎已经充斥到了生活中各个场景,目前发展为每个人离不开的重要工具,那么搜索引擎经历哪些发展过程?涉及了哪些技术?有哪几个核心问题?又是如何评价一个搜索引擎好坏的?我们今天就来系统的梳理一下,什么是搜索引擎

搜索引擎是指的各类型的搜索平台运用特定的脚本及程序从互联网上采集内容生产者的信息,再对信息进行清洗、处理、组织及整合后保存至平台索引系统中,供内容消费者按照一定的用户需求及特定的策略检索出索引内容的一门搜索技术。

  • 内容生产者:包含互联网上的各个网站、文章,整个互联网
  • 平台:大搜平台,垂搜平台
  • 内容消费者:各场景对应的用户

搜索引擎从技术上分为全文检索引擎向量检索引擎

针对全文检索引擎,有比较基础的lucene系,solr和ElasticSearch都是基于lucene做的二次封装提供的分布式全文检索引擎,各大厂也针对solr和ElasticSearch做了很多的优化和改动已适配属于自己的搜索引擎,当然,随着技术的更新以及业务的发展,很多大厂也走上了独立研发的道路以适应更复杂的应用场景,例如百度、阿里等。

在这里插入图片描述

主流向量检索方法有:Faiss、Brute Force、KD-Tree、KNN Graph、LSH 、Product Quantization等。不同的方法有不同的适用场景,例如 Brute Force 适合小数据量、KD-Tree 适合 20 维以下的数据、PQ 适合中高维数据降维等。对于某些数据集和数据分布,有时也需要几种方法相互配合,方能得到更好的效果。目前向量检索引擎主要的运用于图像搜索、商品推荐及视频指纹识别等场景。

在这里插入图片描述

搜索引擎过程上分为爬虫、索引、query理解、召回和排序等模块。此文不作详细介绍,后续会专门针对这些模块进行详解,概览如下:

在这里插入图片描述

今天,随着大数据时代的成熟以及人工智能时代的蓬勃发展,搜索引擎也面临着几个重要的核心问题。

一、用户需要什么?

用户在搜索引擎输入的query词相对简短,在笔者这几年做搜索引擎的经验来讲,用户的query查询评价长度在2.7个单词左右。那么如何在如此短的请求里挖掘出用户真正需要的是什么?这也就是现代搜索引擎需要解决的重要问题。

然而,在真实的搜索场景中,同一个query词,不同的用户的需求和目的也是不同的。举个栗子,在教育课程垂搜领域,一个小学老师输入“数学”和一个中学老师输入“数学”,他们想要的课程可能是不同学段的,那么如何识别这种不同需求也是搜索引擎需要解决的问题。这也是移动互联网时代个性化搜索和语义搜索能得到快速发展的原因。

二、哪些信息是用户最相关的

搜索引擎的本质是一个匹配、排序的过程,即从海量的数据里找到能够符合用户需求的内容,所以在明确用户的真实意图后,如何能找到满足用户需求的信息则成了搜索引擎是否准确的关键因素。

搜索引擎发展至今,内容相关性一直都是信息领域的核心研究课题,从最初的文本检索,google提出的链接分析技术再到现在的以用户中心为基础的内容建设,都是为了解决搜索相关性的问题。

三、如何提升信息的信赖程度

搜索的本质是提供能够满足用户需求的信息,但在一次搜索过程中单纯满足用户需求是不够的,因为还要看这条信息是否是准确的,所以信息是否值得信赖也是搜索过程中一个重要的衡量标准。

比如,在很多时候我们向某度、某乎、某条查询我们想要知道的内容,返回的结果可能存在多条矛盾或者互斥的搜索结果。这就增加了用户主动搜索的不确定性风险,因为搜到的内容非常不可控。很多青少年甚至中老年人,前者缺乏一定的生活经验,后者欠缺必要的信息筛选训练。这两类人非常容易成为互联网诈骗的重灾区。这也是近年来为什么很多fake News的测评任务及比赛,像疫情期间的“疫情期间互联网虚假新闻检测”,因为信息的可信度在当今社会是非常重要的。

那么如何判断一个搜索引擎好不好用,主要有3点,是否高效?是否稳定?是否精准?,这里小编着重讲一下精准问题,还记得两年前一篇题为《搜索引擎百度已死》的文章刷爆朋友圈,这里不赘述,有兴趣的可以到搜索引擎中查询,小编想讲的主要是现在的搜索引擎,不管大搜还是垂搜,其实都已充斥着各种商业化,各类竞价推广,关键词优化,用户根本分不清,自己搜到的是不是广告。

在这里插入图片描述

公司需要盈利,但如果单纯以广告充斥的各类搜索结果,那么这样的搜索引擎也很难走远,很多人会说,google也有广告,为何能发展这么好?因为广告也是一门技术,搜索引擎如何让用户能获取到最想要、最正确的搜索结果又不会直接感受到搜索结果充斥着商业化,这是搜索引擎未来发展的一条路,显然google在这块是做的比较好的。

另一条则是干净、简单的搜索引擎,就比如像夸克,广告词就是“没有广告”,但夸克也是一个商业产品,本质上还是以盈利为目的。不知未来会依然坚持无广告模式作一股清流,还是选择走上广告变现之路呢?只有时间来证明了。

在这里插入图片描述

最后欢迎关注微信公众号:药老算法(yaolaosuanfa),带你领略搜索、推荐等数据挖掘算法魅力。


http://www.niftyadmin.cn/n/722117.html

相关文章

诊断店铺数据,应该从哪些方面入手,诊断店铺的方法

一、商品相关 1、标题 标题需要看那些方面呢,我们可以诊断的地方有以下几个方面: ①、标题是否写满60个字符 ②、关键词与商品的相关性高不高,以及关键词的搜索热度等方面,相关性的话,可以直接搜索这个关键词&#xff…

C#语言学习--基础部分(九) --类-静态字段,静态方法,静态类

1.静态字段只能由类名去引用。类名.静态字段名 2.静态字段是所有类的实例所共享的字段 3.静态方法同静态字段 4.静态方法中只能调用静态字段或者其它的静态方法。 5.静态类:字段,方法都是静态,不允许有构造方法出现。 6.const定义的常量只能声…

第十周、第十一周学习总结

第十周、第十一周学习总结 ——王林 学科 WEB 数据结构 计算机网络基础 进度 第15章的后半部分、第十六章 第六章后半部分 项目5 主要内容 第十周首先主要学习了JavaScript的内置对象。其次第十一周为详细学习JS的字符串对象、数值处理对象、数组对象等,JS…

转化率太差,建议你可以去尝试一下这七点

1、价格不一定要低,但是什么样的价格就要有什么样的性价比,如果你的价格卖的比同行贵但是产品没他们的好,可以考虑降价做促销,前面我们说过常见的几种促销活动,常见的也是以下这几种: ①、满多少送多少、满…

PHP 合并排序

合并排序是稳定排序,平均效率为O(nlogn),需要的辅助空间是O(n)1 <?php2 #归并排序3 #param $arr 待排序数组4 #param $from 排序的起始坐标5 #param $end 排序的结束坐标6 function mergeSort(&$arr, $from, $end) {7 #…

深入理解搜索引擎——初识query理解

当你在搜索框输入一串简短的文本后&#xff0c;搜索引擎立马会返回成千上万条结果&#xff0c;整个搜索过程看似简单&#xff0c;其实底层引擎大有文章。每一个简短的搜索词背后都隐藏着用户最真实的查询意图&#xff0c;这就需要搜索引擎使用很多不同策略去挖掘用户背后的需求…

选对主推款,店铺效果翻一倍

主推款是淘宝店铺内的主宝贝&#xff0c;很多商家不明白如何确定主推款&#xff0c;下面我就来为大家进行介绍。 一、怎么选择主推款? 1、看加购或收藏率(两者选其一即可&#xff0c;根据店铺实况)&#xff0c;以及访客数和加购(收藏)件数。 2、按加购排序&#xff0c;从上往下…

错误输出

使用2>将报错误信息重定向入一个文件 find / -type f 2> /dev/null 使用2>>将报错讯息追加入一个文件 find / -name passwd 2>> 123.txt 使用>和2>可以将一次操作的正确、错误输入&#xff0c;被单独地送到不同的地方&#xff1a; find / -perm -2 2&g…