聊一个技术问题,某个身处西安的读者问的。

这件事就如同标题,西安市的大数据资源管理局局长被停职调查了,原因已经披露,就是因为西安的一码通,连续两次崩溃。

首先我是做技术出身的,刚参加工作时,做的是流媒体服务器,高并发,第一次创业,做的也是虚拟化服务器,高并发。

所以你让我来聊服务器崩溃问题,人是问对了。虽然已经不做技术多年,但这个问题还是可以尝试回答的。

一码通的原理非常简单,就是你通过手机上的一个APP,访问服务器,然后显示你的状况,比如绿码还是黄码或者红码。

如果你访问不出来,大面积的访问不出来,总不可能是你手机终端崩了,要么是网络通信问题,要么是服务器问题。

如果别的软件都好使,那很显然是服务器问题。

从现象上看,应该是服务器扛不住这么高的并发,西安有上千万人,理论上讲,如果上千万人同一秒打开这个软件,访问服务器,获取自己的码,那服务器就要承担上千万的并发。

事实上机房里不会部署这么多的服务器,因为人是错开的嘛,不至于这么巧,这么寸,所有人都非掐一个点。

那么如果真的出现了这样的极端情况,确实会出现超载,也就是服务器当初的设计极限承担的并发本身就不足以应对。

那会不会崩呢?当然不会。

我做过服务器,卖过服务器。

卖服务器跟卖西瓜还是有点不同的,卖服务器是要经过严格测试的。你像我待的第一家公司,我们第一台产品,流媒体服务器,在英国测试了一年,各种压力测试,要达到六个99,全年只允许5分钟宕机,升级维护期间都要正常工作,不能说你检修,升级的过程中要停止服务,那是不允许的。

所有的一切最后都要落实在合同上,卖服务器给运营商,你几乎是要终身负责的。一旦因为你的服务器出现故障,按照合同,你会被罚死。

这就是为什么通常一家公司要有资本才能卖这玩意儿,你没点本金,人家也不敢买你的呀,回头罚款,你没钱赔人家怎么办?

那你说服务器宕机还是时有发生,这个很正常,因为大多数实际情况都是超过了设计极限的。

你比如12306刚推出来的时候,谁能想到是这样一个集中的访问量,想不到的。

全中国对高并发最有研究的是阿里,阿里率先搞起的双十一嘛,凌晨零点,多少双手下单,淘宝的页面早年都是挂掉的,确实响应不过来。因为没有人弄得清楚到底极限并发是多少。

阿里也在摸索,所以他们作为运营商,电商的运营商,提供的服务越来越靠谱。

即便如此,阿里第一次搞春晚抢红包,一样挂了。因为阿里也没有见识过春晚那个级别的并发,太吓人了。

我们当年第一次创业的时候,服务器就是布到阿里的机房里去,让他们用。因为我们知道,他们比我们更懂高并发,虽然我们是做设备的,他们是运营商。

我说的这些,都是很多年前的事情了,十几年前到十年前的往事。

你放在近些年看,西安一码通那就不叫个啥。西安也就1000多万人,极限并发打死也不会超过1000多万,首先这里面就排除了技术难度。

这是成熟技术。

那么在一个成熟的技术框架下,只要西安的一码通服务器机房里做了负载均衡,这事儿就不太可能发生。

你访问不了也不会崩的,明白么?

我打个简单的比方,假如我设计容量是最大接入100个人。实际上我都会留有余地的,极限情况,150个也能接入。

那么第151个人,我处理器能力过载了,我会处理么?不会的,我直接不处理新用户了。会不会影响此前已经上线的150个人?

当然不会。

如果会,说明测试的时候就已经有问题了。

我也在运营商里待过,我不仅做过,卖过,我还招标过,买过,测过。这一条龙我都干过。所以你跟我说成熟技术下出这种问题,我是不太信的。

除非这里面有什么地方没做到位。

阿里在当年,我第一次创业那个年代就跟我们吹嘘他们的亿级并发处理能力,这么多年过去,你要是告诉我一个千万级的并发就把西安一码通搞崩两次,技术方案上我是不信的。

这里面从架构设计,到招标的技术审核,以及验收测试,都应该查一查,到底是什么环节出了问题,还是多个环节都有问题。

其实如果当初错峰查核酸,比如把24小时分成24个时间段,不同的街道在不同的时间段内查,不要集中在早上九点。这事儿兴许也就掩盖过去了。

但既然抖落出来了,那就只能一查到底,哪怕站在技术的角度,也应该好好查查。

毕竟,查查,更健康。