滴滴APP宕机原因为底层系统软件故障 互联网服务可靠性如何提升?

最新信息

滴滴APP宕机原因为底层系统软件故障 互联网服务可靠性如何提升?
2023-11-30 17:30:00
针对11月27日夜间系统故障一事,滴滴出行近日公布此次超长时间系统故障的初步调查结果,经内部复盘调查后初步确定,这起事故的起因并非网传的“遭受攻击”,而是底层系统软件发生故障。
  值得注意的是,除了滴滴近年来出现多次系统故障,大部分主流互联网产品也都出现过宕机的情况。互联网平台当下应如何提升互联网服务的可靠性,将技术故障损失降到最低?业内资深技术人士表示,分散数据压力、保护系统或最为重要。
  宕机原因为底层系统软件故障
  11月29日,滴滴出行发文表示,11月27日夜间发生的系统故障,给广大用户造成了诸多困扰和不便,各项服务恢复的同时,在28日启动了内部复盘调查。初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”。后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。
  同时滴滴出行称,目前,滴滴APP的所有服务已经全部恢复。因这起事故造成的困扰和问题,正在加快妥善解决。
  此前在11月27日晚间,滴滴出行APP内网约车、骑行、代驾等多项业务出现无法定位、无法使用的问题。从高德地图、百度地图等打车入口进入,滴滴网约车平台亦出现异常,不少乘客均反映存在网约车无法下单、订单无法结束等问题。当晚,滴滴出行致歉称,由于系统故障,晚间滴滴APP服务出现异常,经紧急修复,目前正陆续恢复中。
  还有滴滴内部员工在社交平台上发帖指出,服务系统崩溃时滴滴内网也处于崩溃状态,员工无法正常使用内网相关服务。
  11月28日上午,滴滴出行再次发文道歉表示,经技术团队连夜修复,滴滴网约车等服务已恢复,用户可下载滴滴APP使用打车服务。骑车等服务还在陆续修复中,所有可开锁或未关锁的青桔车辆均可免费骑行。因故障导致的行程结算、支付问题,平台后续会根据行程计算和补发车费,优惠券未生效、多扣费等问题也会在事故处理结束后统一结算补偿。
  然而根据记者实测与众多网友在社交平台发文,实际上滴滴出行在28日仍存在大量无法使用的情况,甚至到29日晚间仍未完全修复。有乘客向记者表示,自己27日晚间在滴滴APP上打车的订单始终无法结束,直到29日晚间致电人工客服才结束订单,打车费用显示超1500元,亦是通过人工客服调整才得以恢复正常价格。
  滴滴史上最长故障
  此次接近12个小时的系统故障也成为滴滴出行历史上时间最长的一次宕机,“滴滴打车打不到”等话题轮番登顶热搜。
  有互联网大厂资深技术人员表示,滴滴应该在整个宕机过程中尝试修复了不止一次,但每次都能出现新问题。“一开始是页面打不开,后来能打开了,随便找一个账号都能打车还不限制距离,甚至不付钱也可以继续打车。”
  从经济损失上看,根据滴滴出行此前公布的2023年第三季度财报,单季度中国出行业务总交易额为725亿元,日均单量达到3130万单。以故障时长12小时来大致计算,滴滴此次宕机或损失超4亿元的交易额与过千万的订单量。
  滴滴出行系统以往也曾出现大规模故障,不过均在当日解决。从近三年情况来看,2022年9月22日,有不少用户反馈滴滴网约车服务无法正常使用,当时滴滴出行回应称“由于机房网络故障,导致滴滴部分服务受影响”,该故障情况在当日晚间修复。2021年滴滴出行也曾出现系统故障,滴滴官方回应是系统升级所致。2019年10月,滴滴APP导航系统发生故障,出现大范围司机和乘客互相找不到的情况,滴滴回应称,是系统更新时出现了故障,导致导航出现问题。
  从研发投入数据来看,滴滴近年来在研发费用上呈缩减趋势。2023年前三季度,滴滴研发费用为64.85亿元(人民币,下同),相较于去年同期累计投入的73.34亿元,同比减少8.49亿元,同比降幅约12%。滴滴第三季度研发费用为21亿元,占总收入的4.1%,而去年同期研发费用为25亿元,占总收入6.2%。滴滴在财报中表示,今年第三季度研发费用占收入百分比的下降主要与公司智能汽车业务产品开发费用的减少有关。
  滴滴曾在2017年推出的对外自有云服务,也在2023年3月31日停止了对外服务。据滴滴云官网介绍,滴滴出行的云计算服务基于滴滴出行的业务技术和经验积累,为开发者的需求而设计,提供IT基础设施云服务,而由于产品线调整,滴滴云自3月31日起不再对外提供公有云服务。
  提升互联网服务可靠性
  除了滴滴近年来出现多次系统故障,大部分主流互联网产品也都出现过宕机的情况。例如就在不久前的11月12日,阿里云亦经历了一次大规模故障,共持续超过一个小时,阿里系诸多产品受到影响。
  11月12日傍晚左右,“阿里云崩了”突然冲上微博热搜,彼时阿里云盘疑似出现服务器故障导致无法登录。随后,“淘宝崩了”、“淘宝又崩了”、“闲鱼崩了”、“钉钉崩了”等话题相继冲上热搜。据悉,阿里方面表示,当日19:20左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等APP已全面恢复。
  此外,就在滴滴APP出现宕机的27日,阿里云部分地域云数据库控制台访问出现异常。据了解,从当日09:16起,阿里云监控发现北京、上海、杭州、深圳、青岛、香港以及美东、美西地域的数据库产品(RDS、PolarDB、Redis等)的控制台和OpenAPI访问出现异常,实例运行不受影响。经过工程师紧急处理,访问异常问题已于当日10:58恢复。
  以往,钉钉崩了,keep崩了,喜马拉雅崩了……各种互联网服务“崩了”的信息,也几乎每隔一段时间便会登上热搜榜。互联网平台应如何提升互联网服务的可靠性,将技术故障损失降到最低?
  一位互联网大厂资深技术人员向证券时报·e公司记者表示,互联网服务出现宕机通常出于两种原因。“一是业务量太大,人员流动,很多需求会出现断层,比如需求做了之后没人管,影响到其他业务部分,会发生小部分业务崩溃;二是人员失误,比如之前我负责的一块业务,因为工作变动不再属于我管理,交给了别人,但是交接人员只接了一部分,而且接手后需求上没重视,开发上没注意,测试也没有重点关注,外灰(相当于半发布了)就出现了崩溃。”
  该技术人员同时表示,很多互联网产品宕机并不是被“挤崩”的,大型公司基本很少出现容量不够的情况。大型互联网公司服务器都是弹性的,比如服务器容量到80%会触发负载均衡,会自动增加服务器,到一定程度又自动释放,“云公司”基本上都有自己的云服务,成本不是很高的情况下,完全可以做到自动化云负载。
  据了解,大型互联网公司通常会对系统进行备份,出现问题可以将系统一键还原。前述资深技术人员告诉记者,每一个系统上线,大型公司基本上都会做好备份,以某电商平台的支付平台为例,晚上2点开始发布新版本,早上6点之后发布没成功,就要将系统还原,早上8点需要是正常系统。“基本上公司都有一套完整的还原方案,出现问题可以一键还原,当然也还是有一些还原不了的情况。”他表示。
  对于互联网平台而言,分散数据压力、保护系统或最为重要。“某大型电商平台曾有个机房的线被老鼠咬断了,机房断电,排查了2个多小时,整个平台2小时连不上网。但当时只是部分用户登不上,因为现在的互联网公司不会把数据放在一个地方,通常分布在很多个地方,这个电商平台有两个机房,一个机房断网后,另一个机房还可以用,利于分散压力。”上述资深技术人员表示,“宕机对平台影响较大,大型公司的需求开发要尽量保证系统是好的,业务上可以砍掉,需求不做都可以,但一定要保证平台运行是好的。”
(文章来源:证券时报网)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

滴滴APP宕机原因为底层系统软件故障 互联网服务可靠性如何提升?

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml