本文作者:访客

“蓝屏事件”为何没影响中国民航业,微软蓝屏事件致全球系统瘫痪,幕后黑手竟是它?

访客 2024-07-21 18:11:14 11866 2条评论

【文/观察者网专栏作家张忠林】

当地时间7月19日,全球无数工作者突然发现,自己的电脑屏幕要么蓝屏,要么无法连接系统服务器,之前很管用的“重启方法”也失去了效果,重启之后依然要面对巨大的蓝屏。

微软蓝屏导致的系统瘫痪席卷全球,但在北美尤为严重,对社会运行造成了严重影响:航班停飞、911热线无法接通、酒店无法入住、医院取消手术、商店无法营业。而这一切的源头,是一家名不见经传的网络安全公司——CrowdStrike——当然,现在它已经成为家喻户晓的名字。

此次全球性“蓝屏事件”发生的原因并不令人意外,作为全球网络安全和云计算端点防护领域的顶尖公司之一,大量企业和云服务器均采用CrowdStrike的Falcon平台,并运行在Windows平台上。

此次事件是由于CrowdStrike最新软件更新与Windows平台存在严重兼容性问题,从而引发大面积“蓝屏死机”和“无限循环”所致。如果仅限于个人电脑还好,但问题更新还应用到了云服务器(比如微软自家的Azure云服务)上,同样引发了严重问题,这让“蓝屏事件”在公众领域影响十分广泛,而航空业首当其冲。

美国航空公司遭遇“蓝屏”

由于各国航空公司采用的信息系统解决方案不同,其在“蓝屏事件”中受到的影响也不同:有的自助值机系统无法使用,只能在柜台办理,有的登机牌无法打印,只能手写,有的从值机到载客系统完全无法使用,彻底失去了运行能力。

航空公司涉及微软Azure云服务和基于Windows终端的信息系统受到的冲击最大,而受影响最严重的则是运行在云服务上的信息系统服务器。

“蓝屏事件”为何没影响中国民航业

那一天,人们终于记起了被蓝屏主宰的恐惧和面对Windows系统无能为力的屈辱。

由于地处美国本土优势,美国航空公司成为此轮“蓝屏事件”的重灾区。美国三大航空公司(达美航空、美国航空、联合航空)均受到影响,并对所有航班发出停飞命令。FAA要求空中交通管制员告知飞行员,航空公司目前遇到通讯问题。此外,捷蓝航空、边疆航空、精神航空等中小型航空公司也受到严重影响,关键系统无法使用,大量航班被取消。

“蓝屏事件”为何没影响中国民航业

可以看到,受系统崩溃影响,7月19日美国境内航班数量较前一天明显减少。

作为此轮蓝屏事件的主要受害者,达美航空、美国航空、联合航空均有大量航班被取消,其中受影响最严重的是美国客流量最大的亚特兰大机场。作为美国最大的枢纽机场和达美航空的基地机场,此轮“蓝屏事件”中取消航班超过500个,其中大部分为达美航空航班。芝加哥奥黑尔机场紧随其后,取消了近200个航班,纽约拉瓜迪亚机场取消了三分之一的航班。美国境外的欧洲机场航班也受到很大影响,阿姆斯特丹机场进出港航班延误40%,柏林机场取消了三分之一的航班。

有趣的是,此轮大规模系统故障不仅影响到西南航空和阿拉斯加航空,还波及了两家航空货运公司UPS和FEDEX,这背后的原因可谓是“黑色幽默”。

西南航空现役的飞行控制系统是基于1992年发布的Windows 3.1,机组调度系统是基于电话调度的,因此此轮因错误更新包导致的Windows系统和云服务大规模宕机,对西南航空来说,真的是“系统太老,没什么影响”。

UPS和FEDEX也面临类似的情况,他们当时还在使用Windows 95或Windows 3.1来运行其关键的操作系统,所以才躲过了这场灾难。

其他未受影响的美国航空公司多为支线支线航空公司,这些小型航空公司的信息和运营系统较为原始,无法承担昂贵的云服务,因此也躲过了灾难,得以正常运营。考虑到2022年圣诞节北美暴风雪导致大面积延误,西南航空因系统陈旧无法恢复航班运营,此次事件可谓“转机”,证明了“成熟系统”的“高稳定性”优势。

32 年前的 Windows 系统导致西南航空无法运行雅虎新闻

缺乏应急响应

在这一轮更新中造成大面积系统崩溃的“蓝屏事件”中,最让人意外的是美国三大航空公司在系统崩溃后直接举起白旗,停飞所有航班。在我看来,这无疑是不可思议的,因为这些运行控制系统都是重要的系统,不仅关系到航空公司自身的日常运行管控,也是国家关键交通运输系统的一部分。

此类航空控制系统往往对其可靠性和弹性有极高的要求,以确保不会因坠机事故对航空运行造成严重影响。国际民航组织(ICAO)在一系列文件中对航空控制系统的备份和冗余提出了具体要求,以避免单一系统崩溃造成严重后果,包括:

需要定期备份关键运营数据。必须在硬件和软件上实现冗余,包括备份服务器、存储设备等。必须制定详细的灾难恢复计划,以涵盖各种灾难场景。关键系统(例如空中交通管制系统)需要具有自动故障转移功能和同步运营数据,以便一旦主系统发生故障,可以立即切换到备份模式。

如果我们回顾这次“蓝屏事件”,就会发现那些美国航空公司没有(或者没有实施)灾难恢复计划,也没有实施在关键系统故障后自动切换到备份。当然,也有可能他们确实有备份,但备份也遭遇了蓝屏(比如同样运行在 Windows 系统上,受到错误更新的影响),这让人有一种“为了避免把鸡蛋放在一个篮子里,买了多家 P2P 理财以防万一”的感觉。

作为一个有着丰富现场经验的人,我对美国同事这次的表现也颇感疑惑,因为航空公司对此类情况肯定有应急预案,保证在系统降级或完全不可用时,能够最低限度的运行。以我在一线工作的经历,虽然现在飞机的配载都是通过信息系统进行的,但每一位配载人员都保留着手工绘制配载表的本领。一旦配载系统出现故障无法使用,就根据飞机号对应的机型,找到配载表的PDF文档,将配载表打印出来,然后手工进行配载、计算,得到飞机起飞数据。这种手工操作是极其基本的业务技能,每年、每月、每周都要练习,保证在需要手工计算的关键时刻不会落后。

手动操作是这个行业的基本技能

其他相关环节和部门对应急演练也有着近乎偏执的要求。作为与值机部门重叠的部门,我们几乎每个月都会接到值机部门的电话,要求他们设置虚拟航班进行应急演练。值机应急演练的内容是在TravelSky系统(中国民航使用的操作系统)宕机的情况下,按照本地模式办理值机并发放登机牌给旅客,甚至在无法打印登机牌的情况下,手写登机牌给旅客让其登机。

因此,当我看到美国同行因为“蓝屏事件”导致值机系统、装载系统等航班运行全面瘫痪时,我很疑惑:你们不练习手工作业吗?你们没有应急预案吗?你们不练习应急预案吗?你们没有备用系统吗?

为什么中国没有受到影响

这场影响全球的“蓝屏事件”对中国几乎没有影响,中国民航运行完全正常,只有部分外国航空公司(如美国航空、联合航空)的航班因外界影响而延误,原因并不复杂。

首先,对于终端电脑来说,它们使用Windows系统,并安装了CrowdStrike的安全软件,在更新错误补丁后,会出现无限“蓝屏重启”的问题。而国内航空公司的电脑终端往往不会使用该公司的安全软件,而且对于系统更新往往比较谨慎,不到必要不会更新,使用的Windows版本主要是比较老、比较成熟、比较稳定的版本。

其次,国内大部分航空公司采用的是TravelSky系统,该系统基于Linux,并未使用微软的Azure云服务或者亚马逊的AWS,这在一定程度上避免了由于错误更新导致我国民航关键基础设施系统彻底崩溃的情况。

作为关系中国民航运行的重要系统,中国民航信息系统运行的计算机系统与网络属于“重点基础信息系统”,被列为国务院重点监管的八大系统之一。除春秋航空等少数航空公司外,其他航空公司均采用中国民航信息系统。中国民航系统的安全性和稳定性也受到国家高度重视和严格监管,保证了系统的稳定性和可靠性。

当然,这并不意味着中航信系统不会出现问题。2020年8月25日,中航信出港系统使用出现异常,导致部分机场无法值机。据通报,当天上午1​​0点32分出现异常,导致部分机场无法值机,11点07分一切恢复正常。虽然造成了一定影响,但只持续了半个小时,所以没有造成大的影响,整体运行平稳。

虽然民航系统的指挥操作界面几十年不变,饱受诟病,但关键基础信息系统稳定运行才是王道,基于完全独立的信息系统和运行环境,我们才能避免受到“蓝屏事件”的影响,避免像美国同行那样闹出大笑话。

通过这次事件,我们更加意识到,在关键信息系统成为重要基础设施的今天,实现完全自主可控极其重要。这不仅包括信息系统,还包括操作系统。在网络安全形势日益严峻的今天,其必要性毋庸置疑。这不仅是技术选择,更是国家安全和产业发展的战略需要。

阅读
分享

发表评论

快捷回复:

评论列表 (有 2 条评论,11866人围观)参与讨论
网友昵称:游客
游客 博主沙发
2024-07-21 22:41:32 回复
宇宙第一贴诞生了!https://www.youxixiong.com/322.html
网友昵称:游客
游客 博主椅子
2024-07-22 03:37:20 回复
不错的帖子,值得收藏!https://www.bianchengshe.com/tag/ansiblevault