第(1/3)页 贝索斯的技术员编写的是一种纯自动化的爬虫脚本。 在互联网时代,一切讲究的是效率和速度,但是有时候,单纯的效率会催生出巨大的隐患。 任何网站的负载都是有限的,如果一个网站的登陆访问请求超过某个上限值,比如一秒钟几万次的登陆请求,那么整个网站都会宕机,数据量再加大的话,服务器甚至有可能烧。 而黑客最常用的攻击方式,就是写一个自动化的登陆脚本去不断的请求登陆。 为了防黑客,一些程序员大佬发明了一种验证人机的办法——验证码! 没错,大家最讨厌的验证码,其实是为了防黑客的! 因为验证码是动态变化的,每一次都不一样,黑客编写的纯自动化脚本没办法识别。 贝索斯的技术团队开发的这种纯自动化爬虫脚本,就类似于黑客的那种脚本。 它可以做到一秒钟采集10万次数据! 而掏宝的服务器是能够承载千万人同时在线流量的“怪物”,这点数据采集数量,根本不会引起掏宝的怀疑。 1秒钟10万次,贝索斯甚至可以在半小时内把淘宝网的所有页面数据全部采集完! 到了凌晨12点的时候。 乔恩兴奋的找到眼圈发黑的贝索斯,激动的道:“boss,我们的爬虫已经开始爬数据了,爬完数据后,技术团队会把数据上传到咱们自己的数据库!” “嘿嘿,陈默肯定不知道,掏宝斥巨资辛辛苦苦搞的数千万的卖家页面数据,咱们爬虫爬了半个小时就能爬完。这给咱们省了一大笔钱呢!” 贝索斯立刻起身,开心道:“nice!告诉技术团队,这件事搞定以后,我给他们发奖金!” 顿了顿,贝索斯又道:“对了,ip一定要勤换着点,在爬完数据之前,千万别被对方的程序大牛给逮到!” 乔恩立刻点了点头:“好!我这就去吩咐!” 自动更换ip功能很好做,甚至有现成的软件,不需要技术员现场编写,直接下载一个拿过来用就是了。 12点5分,贝索斯的爬虫正式出动对掏宝的页面数据进行大量的采集。 此刻,马福报正在掏宝亲自坐镇加班。 虽然反作弊功能和水印logo功能都可以自动开启。 但是为了能窃取乐掏一部分流量,马福报让技术员暂时关闭了这俩功能,听从他的指挥。 只要马福报一声令下,这两个功能就能瞬间开启,把所有被爬虫爬走的数据变成脏数据! 当乐掏的爬虫开始肆无忌惮的采集掏宝数据时,掏宝的技术员早就发现了异常! “马总,对方行动了!而且爬虫的速度非常快,不用半小时就能爬走咱们全部的数据!” 第(1/3)页