为什么会有爬虫   网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。(引自百度百科)   具体到航司网站,所谓的爬虫,更准确地讲应该叫机器人,他们的主要目的是借助程序自动化的访问航空公司网站以获取需要的信息或者是执行相应的操作。从这个角度看,爬虫的核心不是去解决如何爬取海量网站信息的问题,而是如何自动化的高频的去获取航司网站信息或者执行相关操作。   催生爬虫的业务场景分析   从业务角度分析,催生爬虫去爬取航司网站的业务诉求有以下几类。   1.查询获取航司舱位、运价信息   最典型的场景,机票垂直搜索引擎,最初的解决方案,就是通过机器人高频访问航空公司网站,查询航空公司舱位信息、运价信息,以此构建自己的比价搜索业务模式。   当然,在航司网站询价环节进行机器人爬数的可能远不止垂直搜索这一类。   比如基于机票价格预测构建业务模式的公司,他们需要通过爬虫获取并在本地存储航空公司舱位运价信息,并基于海量的历史数据去预测未来的机票价格走势。   比如有些第三方公司,可能会通过爬虫获取某航司的运价数据,然后包装为数据服务产品提供给关注该航司运价政策的公司,比如航司竞争对手。   当然,还有一些技术驱动型的机票搬砖公司或者仅仅是技术团队,他们通过爬虫获取航司的舱位运价数据,构建自己的缓存系统,然后使用这个缓存系统去对接下游的机票流量入口。   2.抢占航司座位   一个抢字道出了机器人的特点,快。与火车票需要抢一样,航班上的座位也是有限的,也是先到先得。机器人一个快字占得先机,抢在人之前,把座位占了。   抢占航司座位,有两种截然不同的模式。   最典型的,就是所谓恶意占座。这种情况最典型,也最为航司所关注。恶意用户通过机器人批量占取航班座位,导致代理人或者旅客无法正常购买客票。大量的恶意虚占座位,会扰乱航司正常的销售秩序,造成旅客买不到票,旅客受损,航司受损,个别代理人从中谋取不正当收益。   虚占座位在传统黑屏销售模式下也存在,但是还处于航空公司基本可控的状态。一旦战场转移到互联网,就处于比较难控制的状态。如何防止网站恶意占座是航司线上解决方案需要考虑的一个比较重要的问题。   另外一种占座是非恶意的,比如航司推出促销产品或者秒杀产品,9块钱(这个叫九元航空)或者8块钱(这个应该叫八元航空)一张票,就是要抢啊,机器抢肯定比人抢成功概率要高啊。这种抢占其实不是恶意的,就像大部分人使用抢票软件去12306抢火车票一样啊,大家只是想借助一个工具能够抢到票回家,这个出发点没毛病。但是从某些角度,这种机器人参与的抢占又有可能扰乱航空公司的销售活动,使得促销可能达不到预期的效果,比如投放了100张8元机票,最后发现都被代理人抢走了,终端旅客没有受益。   3.搬砖式出票   搬砖式出票,就是借助机器人和网站自动交互,查询、预订、支付直至出票。这种模式,主要是在航司提直降代、官网价格最低最优保障的行业背景下出现的。代理人通过航司官网采购机票,然后通过其他渠道销售给旅客。这种模式手工也可以操作,但是手工操作无法建立有效的盈利模式。所以大部分搬砖应该都是通过程序驱动,自动化的去做。   之所以行业内的人称这种行为叫搬砖,可能是认为他们没有创造产品价值。但是我觉得搬砖之所以能够成为一种业务模式存在,一定有价值支撑,没有创造产品价值那就是创造了服务价值。或者就是利用了信息不对称。   听说有代理从某低成本航司网站搬砖到某流量入口,一张票加价一两块钱,一天几千张票,全部自动化。   总之是无利不起早。虽然机器人不是人,但是机器人背后一定有人,所以所有的爬虫行为都是利益驱动而不是其他。   好,到此为止。下一次我们聊聊反爬虫。