现。
还好Windows公司相当强大,早在1996年发布了ASP1.0(Active Server Pages,动态服务器页面),这也让王向中不必苦哈哈地用大量C语言进行后端代码编写工作。
接下来就是数据的爬取和存储问题。这话虽然听起来很高端,但实际上也就是将数据从别的网站上摘下来,进行索引和关键词分配的简单加工后存储的过程。
这个时候Python语言尚还叫ABC语言,很显然在这个年代使用这个失败的产品是不太合适的,使用更加成熟的C++也许可以解决一些问题。
将爬虫模型简单地铺开来讲,最基础的爬虫,便是通过程序直接访问网页的源代码,通过正则表达式匹配出网页的标题和其具体内容,再接着分析网页内的超链接所指向的页面,逐步将整个网站的内容收入囊中。
再接下来便是数据的存储问题。MySQL(一种关系数据库管理系统)可以完美地代替文本文档进行数据存取,因为它有一项对于搜索引擎而言重要的功能——索引。
索引可以给一条数据给予定义。举个最简单的比方,为了节省空间,图书馆的书一般是纵向摆放,而在每本书的侧面上,都写有书