编辑:admin 发布时间:2019-07-04 20:13:25 分类:网站优化
获取web页面。每个独立的搜索引擎都有自己的网络爬虫程序(Spider)。爬虫沿着网页中的超链接从这个网站爬到另个网站,并分析通过超链接分析获取更多网页的连续访问。捕获的web页面称为web快照。由于超链接在Internet中的应用非常普遍,理论上,从定范围的web页面开始,我们可以收集绝大多数的web页面。
处理web页面。捕获网页后,搜索引擎还需要做大量的预处理工作来提供检索服务。其中重要的是提取关键字,建立索引库和索引。其他包括删除重复的网页、分词(中文)、确定网页类型、分析超链接、计算网页的重要性和丰富度等。
提供检索服务。用户输入检索的关键字,搜索引擎找到与索引数据库中关键字匹配的web页面。为了便于用户判断,除了页面标题和URL之外,还将提供web页面的摘要和其他信息。
搜索引擎的自动信息收集功能提交网站搜索。站长主动将网站提交给搜索引擎。它会在定时间内将爬虫发送到您的网站,扫描您的网站并将信息存储到数据库中以供用户使用。因为搜索引擎索引规则发生了很大变化相对于过去,主动提交的网站并不保证你的网站能进入搜索引擎数据库,所以站长应加大网站的内容,让搜索引擎有更多机会找到你并自动收集你的网站。
当用户用关键词搜索信息时,搜索引擎将在数据库中搜索。如果你找到个网站,符合用户要求的内容,个特殊的算法--通常根据网页中关键词的匹配程度,位置、频率,链接质量,等等--计算网页的相关性和排名。然后,根据关联程度,将这些链接依次返回给用户。