当产品发生重大事故时,正确的姿势是什么?
副标题[/!--empirenews.page--]
一、什么是重大事故?删库跑路?还是系统奔溃?重大事故让人沮丧、肝儿颤、似乎又无可奈何? 近来所在的部门和产品发生几次大事故,用户大量涌入,在峰值时刻导致系统瘫痪,造成不可估量的经济损失:原有线上活动不能正常进行,除此之外,无论是对产品本身还是品牌形象的损害更是无法估量,所谓创业难、守业更难。 当然重大事故在任何产品和任何公司都有发生的可能,比如—— 1. 拼多多优惠券BUG事件2019年1月20日凌晨,拼多多遭遇了成立以来的最大BUG事件:当日凌晨,有用户发现可以领取100元无门槛券,切换微信、QQ等账号可以多次领取,且兑换券可直接用于充值话费、Q币、购买商品时抵扣。 该BUG于凌晨被发现,随之被扩散开来,凌晨五点传遍全网,吸引了大批羊毛党进入,至早上九点拼多多才反应过来,下架了相关优惠券,10点左右BUG被修复。由于有羊毛党进入,众所周知其作战能力彪悍,开启了嘻唰唰模式。传言该BUG使拼多多一夜损失200亿。 2. 携程瘫痪门事件2015年做互联网行业的人应该都耳闻过携程“瘫痪门”事件,那天是5月28日,突然之间携程官网和APP双双崩溃,访问不了。一时间谣言四起,两个小时后,携程发布声明说服务器受到不明攻击,正在努力恢复中。 但是据坊间流传,说携程的数据被怀恨在心的一个工程师物理删除,数据全部丢失。互联网公司最核心的就是数据了,若用户数据丢失,公司会成为一个空壳,变的一文不值。次日携程发布官方声明,说是由于员工操作失误,误删除了生产服务器上的代码所致,就此事件结束,受此事件影响,携程盘前股价暴跌11.67%。 3. 王者荣耀test邮件事件如果你不知道玩什么,就玩王者荣耀吧。如果你不知道朋友去哪了,就去王者荣耀找吧。 2018年12月3日王者荣耀不少安卓QQ区的用户收到了标题为“test”的邮件,打开后里面是英雄沈梦溪、棒球奇才、英雄李信和灼热之刃四个永久道具。价值有多大呢,这次邮件内容被用户戏称为“天美史上最强福利”。 邮件发出后,全网沸腾,微信群、QQ群关于邮件内容的截图满天飞,然而不到1小时,进入游戏提示:停服维护。官方动手了,对已经使用了道具的账号,强制进行了回收。未打开邮件的账号,邮件被删除。按照游戏出 BUG 必补偿的原则,事后官方对全服玩家发放了每人10个英雄碎片和2000个铭文碎片补偿。 二、一分为二看待“重大事故”这件事情1. 第一个“一分为二”:主动还是被动通过上边的案例我们可以看到,重大事故的发生分为人为的、故意的,和非人力可以控制的、意外的,前者如程序员删库跑路,后者如活动大量流量访问时系统的暂时性奔溃(此处应该有一个泪奔的表情)。 2. 一分为二看待“重大事故”这件事情的生命周期,挑战还是机遇首先我们应该庆幸,我们能够遇到和处理、解决这些“重大事故”,因为一定程度上说明了我们做的产品到了一个比较大的用户量阶段,对系统的高并发有了比较高的要求,这无论是对产品还是对技术来讲,都是一次在压力中成长的机会。 就像一个孩子的成长一样,一路上的跌跌撞撞、磕磕碰碰之后,才能成长为一个身体和心理都较为强壮的人,而系统也因此变得越来越健壮。 三、重大事故是事实和性质双重严重的问题,怎么办?这总归不算事一件特别好的事情,至少不值得炫耀。 这是项目或者产品冒着拼尽洪荒之力的重压给参与者的一次成长的机会,风险永远不可消除和避免,但是我们还是有章可循尽量能预防,从而降低风险和损失。 (1)对于人为原因的事故,我们只能从人的角度多关注,关注每一个参与者的幸苦付出,让大家感受到参与的热情和价值,做好团队的心理建设 (2)对于非人为的原因造成的事故,大概有以下一些处理方案,主要是一些在用的方案,坊间通用的以后用到再谈。
四、性能优化与用户体验的永恒博弈刚刚讲了很多实际处理重大事故的方案和预案,但是当我们透过现象看本质我们会发现,在基本的功能问题处理完毕后,后续我们将面临的是系统性能和用户体验的艰难博弈。 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |