豆豆小说网

手机浏览器扫描二维码访问

第43章 搜索引擎(第1页)

搜索引擎,顾名思义,便是一种用于搜索信息而产生的工具。

一般解释而言,便是通过用户的需求,和一定的算法,将用户输入的关键词与互联网上现存的信息进行匹配,并按照相关度和时间顺序,将符合要求的信息罗列在用户的眼前。

搜索引擎这门生意讲究的是个先来后到。

如果能在最早的时候将知名论坛和网站的内容全部爬取,那就会在用户占有率上占尽优势。

要知道在这个时间点,日后驰名全球的寻他公司和布谷公司还在娘胎里,呀唬公司的搜索引擎虽然已经诞生,但其底层技术依旧是依靠人工存放网站目录,可谓是效率极其低下。

现在已经有互联网信息爆炸的趋势了,随着信息越来越多,人工处理流程必将被淘汰,而王向中设想的,则是抢在市场最前列,将新一代的搜索引擎提前面世。

实际上做一个搜索引擎并没有看上去那么轻松。

首先是代码问题,这个年代网页技术还停留在web1.o(互联网1.o)的时代,先暂且不提Ajax(AsynchronousJavascriptAndXmL,异步JavaScript和XmL)这种动态页面刷新机制,就连JavaScript(一种web页面脚本语言)都还尚未出现。

还好windows公司相当强大,早在1996年发布了ASP1.o(ActiveServerPages,动态服务器页面),这也让王向中不必苦哈哈地用大量c语言进行后端代码编写工作。

接下来就是数据的爬取和存储问题。

这话虽然听起来很高端,但实际上也就是将数据从别的网站上摘下来,进行索引和关键词分配的简单加工后存储的过程。

这个时候Python语言尚还叫ABc语言,很显然在这个年代使用这个失败的产品是不太合适的,使用更加成熟的c++也许可以解决一些问题。

将爬虫模型简单地铺开来讲,最基础的爬虫,便是通过程序直接访问网页的源代码,通过正则表达式匹配出网页的标题和其具体内容,再接着分析网页内的超链接所指向的页面,逐步将整个网站的内容收入囊中。

再接下来便是数据的存储问题。

mySQL(一种关系数据库管理系统)可以完美地代替文本文档进行数据存取,因为它有一项对于搜索引擎而言重要的功能——索引。

索引可以给一条数据给予定义。

举个最简单的比方,为了节省空间,图书馆的书一般是纵向摆放,而在每本书的侧面上,都写有书名和作者姓名。

这个书名和作者姓名,就是一本书的“索引”

,当你想要找一本书的时候,显然不可能将每本书都打开细细查阅一番,这无疑是在浪费时间。

而通过书名和作者名,你可以轻松地找到自己想要的那本书。

假设一本书是一条数据,那么通过索引功能,便可以轻松地将它从数据库中调取出来,而不必辛苦地逐行逐字分析书本的内容。

热门小说推荐
紫丹大道

紫丹大道

化世间万千道为一念,融世间万千法为一法,此为紫丹大道!凝气炼体炼气化白丹白丹一成方为修者修者炼七色赤橙黄绿青蓝紫千羽大陆,丹修者分为七阶丹色,分别是赤丹期橙丹期黄丹期绿丹期青丹期蓝丹期紫丹期。紫丹期高手已是传说中的存在了,但那便是丹修者的终点么?PS坚持紫丹,不抛弃,不放弃!!!!上架了,求订阅,和尚感激不尽!紫丹大道群172209934。...

西游八戒传

西游八戒传

重生成了一头猪,不沮丧,因为俺是天地间最伟大的猪。别人吃虎还需费心扮猪,俺就不用扮,因为俺是本色演出!...

岁月不及你长情聂相思战廷深

岁月不及你长情聂相思战廷深

潼市人人都说,聂相思是商界传奇战廷深最不可冒犯的禁区,碰之,死。--五岁,一场车祸,聂相思失去了双亲。要不要跟我走?警察局,男人身形秀颀,背光而立,声线玄寒。聂相思没有犹豫,握住男人微凉的手指。--十八岁以前,聂相思是战廷深的宝,在战家横行霸道,耀武扬威。十八岁生日,聂相思鼓起勇气将心仪的男生带到战廷深面前,羞涩的介绍,三叔,他是陆兆年,我男朋友。战廷深对聂相思笑,那笑却不达眼底...

无敌之大唐

无敌之大唐

这是一个魂穿的故事,一个大明的小将来到大唐,正是武后掌控天下即将开辟新朝之际,他竭尽全力地蹦跶,想为家人创造一方净土,牵连进世外隐世山门的争斗,身不由己地去争去斗,可斗到最后,却发现所有的一切都不过是一盘棋,每个人都是棋子,而执子的手却隐藏在诸天深处本书书友群181966997...

反派他闺女人见人爱

反派他闺女人见人爱

一觉醒来,洛甜甜发现自己穿书了,还穿成了反派他女儿。书中的反派丧尽天良无恶不作,最后惨死在一场大火中,作为反派的女儿,书中的洛甜甜最后也落了个被拐卖的下场。难道就这样认命坐等结局吗?呸!我命由我不由天!今天就让我来手撕这渣渣剧本,我的爸爸我来守护!拯救反派爸爸计划启动!但是我为什么还是个在喝奶的屁孩儿啊!洛遇北其人,传闻中心狠手辣无恶不作,从不曾有人敢在他面前撒野,但是有一天,有人看到一个小女孩儿骑在他的背上把他当成了大马啊这...

每日热搜小说推荐