本文共 945 字,大约阅读时间需要 3 分钟。
搜索引擎4大系统:
下载系统 网页分析 建立索引 查询服务 1 http协议:客户端和服务器建立一条tcp链接进程,然后发出请求并读取服务器进程的应答,然后关闭链接结束一次响应,返回的内容包括一个头部信息,和主题部分 2 记录未访问和已访问的URL:未访问表,已访问表,避免重复收集 3 域名和IP问题:一对一,一对多,多对多,不能单方面的用ip来判定是否是同一个站点,内容重复的站点搜索引擎只会选择其中一个作为主站来抓取。 4 网页的重要度: 优先抓取:网页如度大,被引用的多 网页的上层页面入度大 网页的镜像度高 网页的目录深度小 网页权重公式:网页的权重=网页的入度,上层网页的入度,网页的镜像度,网页的目录深度。 5 网页收集的分布式系统,多台服务器多线程同时抓取,还要确保不重复抓取来提高收集效率,种子站点开始的深度优先和广度优先为的是先收集重要页面的信息。 6 链接的权重,每个URL都有一个初始值,如果URL中出现了?&,等都会降低权值。 搜集信息的类型:html,pdf,doc。 7 稳定和高效的下载系统是一个搜索引擎提供服务的根据,搜索引擎能否做到高时效性,就要看他的下载系统策略和下载系统的性能了,对于商业搜索引擎来说,是非常重要的! 1 网页分析的必要性: 网页的保存格式 共同点都是为了提高效率 每个网页中什么地方最重要? 举个大家都能理解的例子。 2 好刚用在刀刃上 搜索引擎的权重板块的提取。 什么位置最不重要 什么样的网页最重要? 3 分析系统 搜索引擎不是人,看不懂网页 解决方法:切词 高频无关次:没有什么表达意义的词 集中切词方法,正向最大匹配,逆向最大匹配,最小化切词 将网页转化形态 变成网页到词集合的过程,变成词,才能查询索引,返回结果。 都是为最后的查询服务,服务的 4 网页消重 网页消重的必要性 如何判断文章是谁原创的。 根据这个文章第一次收录的时间, 链接,引用文章的人把原来的链接给加上了! 采集别人的网站,然后修改,然后成为原创 少量的重复是允许的,特别是门户站 5 噪音板块 什么是噪音板块? 为什么要消除噪音板块? 噪音板块一般出现的位置 过滤噪音板块,留下真正意义上的内容。 6 建立索引 通过上面的分析,接下来就是要建立索引了转载地址:http://tjcli.baihongyu.com/