但结果恰恰相反,很多时候根本搜索不出想要的内容,或者可能搜索出来了,但因为在 50 页开外,你压根就看不到。
搜索引擎所做的工作不是回答,而是匹配。而且这个匹配不是与整个互联网的网页内容进行匹配,而是和对应引擎的索引进行匹配。
如果搜索引擎临时到互联网所有的网页中去查找、匹配,那么多网页需要搜索,当搜索引擎得到了结果并返回给你时,估计你早就等得不耐烦了。
所以,搜索引擎在你检索之前,已经做好了准备工作,这个准备工作就是预先建立索引。
搜索引擎运行爬虫,到互联网上去采集网页内容,从几个页面开始,这些页面中又有其他页面的链接,爬虫沿着这些链接再去采集其他页面的内容,采集的内容会存储到搜索引擎自己的服务器上,并且针对这些内容进行加工处理,建立相应的索引。
当在搜索框中输入你需要查询的内容的时候,搜索引擎不是临时到互联网所有的网页中去查找、匹配,而是到自己的索引库里去查找、匹配,匹配上了索引,也就找到了对应的网页。
搜索引擎会根据很多因素给每个匹配的页面打分,例如:网页中出现关键词的次数、关键词是不是出现在网页的标题里、网页地址中含不含关键词、 网页中含不含关键词的同义词以及网站的权威性等。
基于这些因素,搜索引擎会给每个网页的综合排名打分,最后按先后顺序展现在屏幕上。所以要想检索到所需的内容,关键不是你输入搜索框的内容有多详细,而是能不能找到关键词,匹配到索引。
- 限定在特定的网站中:关键词+空格+site:搜索范围的站点
例如搜索:高校专项计划 site:http://zhihu.com 这个时候就会把你的搜索结果限定在知乎的网页中。
- 限定文件类型(filetype):关键词+空格+filetype:文件类型
例如搜索:高校专项计划 filetype:pdf 得到的就是高校专项计划相关的pdf文件。
- 将关键词限定在标题中:title:关键词
这时候你得到的内容都将是标题含有这个关键词的。
- 精确匹配:双引号和书名号
使用双引号 " " 可以精确匹配关键词,搜索的结果不会将关键词拆开。你想搜索关于《一句顶一万句》的书,你只需输入《一句顶一万句》即可。
- 要求搜索结果中包含或不包含关键词1:关键词 空格 +/- 关键词1
比如你想搜索《2001太空漫游》的书而不是电影就可以在搜索栏搜索:2001太空漫游 +书
- 数学运算/绘图等有关的搜索:
(输入搜索框的时候不要加引号)
“3..9”:代表数字范围3~9
“1024 * 2048”:得出运算结果。