正文第43章搜索引擎_回到1997造芯片_网游小说

现。

    还好Windows公司相当强大，早在1996年发布了ASP1.0（Active Server Pages，动态服务器页面），这也让王向中不必苦哈哈地用大量C语言进行后端代码编写工作。

    接下来就是数据的爬取和存储问题。这话虽然听起来很高端，但实际上也就是将数据从别的网站上摘下来，进行索引和关键词分配的简单加工后存储的过程。

    这个时候Python语言尚还叫ABC语言，很显然在这个年代使用这个失败的产品是不太合适的，使用更加成熟的C++也许可以解决一些问题。

    将爬虫模型简单地铺开来讲，最基础的爬虫，便是通过程序直接访问网页的源代码，通过正则表达式匹配出网页的标题和其具体内容，再接着分析网页内的超链接所指向的页面，逐步将整个网站的内容收入囊中。

    再接下来便是数据的存储问题。MySQL（一种关系数据库管理系统）可以完美地代替文本文档进行数据存取，因为它有一项对于搜索引擎而言重要的功能——索引。

    索引可以给一条数据给予定义。举个最简单的比方，为了节省空间，图书馆的书一般是纵向摆放，而在每本书的侧面上，都写有书

正文 第43章 搜索引擎(2/6)

正文第43章搜索引擎(2/6)