商业

一家航空公司计算机瘫痪,几百架飞机没能正常起飞

Annalyn Kurtz ·

达美航空的事件显然是由一次灾难性的电脑故障引发的,令人震惊的是,其灾备系统竟然没有启动。

本文只能在《好奇心日报》发布,即使我们允许了也不许转载*

这个夏季,负责让飞机、乘客和行李顺利抵达目的地的大型计算机系统故障频频发生。

周一,达美航空(Delta Air Lines)就遭遇了这样的故障。公司总部所在地区亚特兰大的一个电气设备故障,导致其全球范围内的计算机系统瘫痪,全天共数百个航班被取消和延误。

而就在三周前,西南航空公司(Southwest Airlines)也经历了一系列类似的故障事件。其位于达拉斯的数据中心的一个笔记本大小的路由器发生故障,4 天内导致约 2300 多个航班被取消。

这两起事件导致数以千计的旅客滞留,为了让飞机顺利起飞,航空公司员工手忙脚乱。有人会问,为什么会发生这些故障事件?为什么灾备系统不能解决所面临的挑战?然而更应该问的可能是,为什么这样的故障并没有更频繁地发生?

世界上最大的计算机预订系统 Sabre 公司的前首席架构师、旅行科技咨询公司(Travel Technology Consulting)负责人鲍勃·奥夫特(Bob Offutt)表示:“这些系统是如此的复杂,没有频繁发生大故障实在是令人惊异。”

这些事件也并不是孤立存在的。去年,美国联合航空公司(United Airlines)的计算机系统发生故障,导致数百个航班停飞;美国航空公司(American Airlines)的 iPad 软件发生的一个程序错误,导致飞行员无法获得准确的机场地图,从而使航班延误。

西南航空公司事件中,据航空公司称,灾备系统已经到位,但由于路由器故障,导致备份系统无法如常启动。达美航空周一表示,公司正在调查为什么一些关键的操作没能切换至灾备系统。

现在估计此次事件对达美航空造成的损失还为时尚早,但西南航空表示,7 月 20 日发生的停运事件已经让公司损失“数千万美元”。

大气研究集团(Atmosphere Research Group)的旅游行业分析师亨利·哈特福德(Henry Harteveldt)表示:“达美航空的事件显然是由一次灾难性的电脑故障引发的,令人震惊的是,其灾备系统竟然没有启动。”

达美航空解释,美东时间凌晨 2 时 30 分的一场停电引发了此次故障、中断了计算机系统,令航班停飞,约 6 小时后,达美航空才开始逐步让系统重新联机。

对旅客来说,这一天的故障也有着灾难性的影响。

达美航空在拉瓜迪亚机场(La Guardia Airport)C 航站楼的办公室是其于纽约地区的办公中心。星期一的早晨, 这里人头攒动,所有人只能站着,孩子们躺在背包上打盹,出差的人都在抢占电源插座,许多旅客倚在圆柱上站着。

随着时间慢慢流逝,航空公司的系统开始慢慢地重新启动,但间断发生的问题也引起了更多的混乱。

工作人员通过扩音喇叭通知:“乘坐 831 航班飞往底特律的旅客,您可能刚刚收到短信,通知该航班将于上午 9 时起飞。”她表明,如果能按时起飞的确不错,但应该是不可能的了。还没等完成处理飞行计划等飞行员文件,计算机系统再次瘫痪了。

在凤凰城,25 岁的安东尼·纳瓦罗(Anthony Navarro)原计划前往亚特兰大,然后到迈阿密乘坐邮轮到达巴哈马。他和一个朋友登上原定于上午 12 时 35 分离开凤凰城的飞机,结果却坐在停在登机口的飞机上等了约 5 个小时。

当他意识到自己可能会错过转乘航班时,纳瓦罗下了飞机,并表示自己将会向达美航空以及挪威邮轮要求退款。

他说:“我们花了几个月的时间来计划这次旅行,却因为一个航班被迫取消了一切,这让人感到非常沮丧。”

周一,达美航空公司的乘客在新泽西州纽瓦克自由国际机场机票柜台排队等候。 图片版权:Seth Wenig /美联社

周一早上,部分航班恢复起飞,但该航空公司表示,预计航班延误将持续一整天。截至美东时间晚上 7 时,达美航空公司表示,其 740 个航班已被取消。达美航空没有提供受影响的乘客数目。

周一,达美航空原定要运营约 6000 个出发航班,到傍晚时分,约 3340 个航班成功起飞。达美航空发言人迈克尔·托马斯(Michael Thomas)说:“我们正在恢复各种可用的系统。”

航空公司是最早采用信息技术的行业之一,在 1960 年代便已经建设了电子预订系统。奥夫特表示,多年来,这些系统经历不断的重建,但鉴于巨大的交易量,航空公司并没有对其数据进行连续性的备份。

他表示,虽然航空公司的确有一个备份系统,例如在发生电源故障时能够提供电源,但数据的备份并不是实时的,而是在一天中分几次进行的。这意味着即使解决了路由器故障或电源问题,也需要数小时的时间来使系统重新联机。

他表示:“这些系统非常复杂,因此很可能会有备份的处理器,但没有备份数据。”

大型航空公司主要使用 Sabre、Amadeus 和 Travelport 等第三方来分配实时航班数据至 Travelocity、Expedia 等旅行预订网站。他们还与这些服务商合作,运营自己的内部预订系统以及航班起飞控制系统,以处理登机、最后一分钟预订和座位分配等任务。

达美航空使用公司内部系统来处理乘客服务和航班运营,但系统基础设施由 Travelport 于其亚特兰大数据中心负责运营。西南航空公司将其国内航班预订服务交由 Sabre 负责,而国际航班预订则交由 Amadeus 负责,不过公司正将一切数据都迁移到 Amadeus 系统上。

每一架飞机上的每一位乘客都意味着多个交易记录︰每个座位分配、用餐偏好、孩童要求和常旅客号码都是单独的日志记录。Sabre 发言人安德烈·胡格列(Andrea Huguely)表示,公司系统每一分钟要处理 16.4 万条交易请求,涉及的旅行开支价值约 25 万美元。

当然,航空公司只是复杂系统发生故障时会导致灾难性后果的众多行业之一。为了防控风险,银行和大型金融交易商等公司会将数据复制到由不同数据中心驱动的服务区,这样当发生意外停电时,他们就可以继续如常工作。

达美航空的故障事件起因最终被追溯到了一件电气设备,而这件电气设备最初是为了防止出现故障而安装的,由此可见,引发故障的原因可能十分复杂和繁多。乔治亚电力公司(Georgia Power)发言人表示,这一故障最初起因于一个类似家庭电路断路器箱的开关设备,这个设备可用于改变电流方向,包括截停电流。

达美航空没有详细说明其备份系统的性质,只是表示公司正在对本次故障进行调查。

该航空公司表示,对于航班被取消或严重延误的乘客,公司将给予全额退款。(达美航空发言人托马斯表示,是否“严重延误”需要视个案而定。)

此外,达美航空免除了乘坐周一航班的乘客的机票改签费。乘客可以将航班更改为星期五之前任意一天的航班,票价将保持不变。

31 岁的乔什·霍尔(Josh Hall)所在的公司专门开发用于军事用途的模拟软件,他表示,自己快要到达明尼阿波利斯机场航站楼时才收到消息,通知他下午 1 时于奥兰多转机前往伦敦的航班延误了。

他的第一程飞机推迟了至少 5 个小时,也不清楚自己到底什么时候能抵达伦敦。

他说:“我希望他们能提前通知我,这样我就能用这些时间去做点儿别的事情。”

由于没能去往国外与客户会面,此时霍尔正观看奥运比赛来消磨时间。他已经喝了两杯威士忌,但现在已经改喝水了。

他说:“我只是想上飞机。”

后续更新

周二上午,达美航空正在努力恢复运营,一天前的一次电力故障导致了其航班停飞、取消或者延误。到美国东部时间中午 12 点半时,达美航空已经取消了 500 多架预计在周二起飞的航班。

公司称,在周一计划起飞的 6000 个达美航班中,约有 1000 个航班被取消。

达美航空正在向航班被取消或严重延误的乘客提供全额退款,以及 200 美元的折扣券。公司还免除了8 月 8 日和 9 日乘坐达美航班的乘客改签的费用。

这些乘客可以重新预订不晚于周五的任何航班而不用支付票价差额。达美航空称,它尽可能低为被滞留在机场过夜的部分乘客安排了酒店住宿。

翻译 熊猫译社 李秋群

题图来自 www.cnbc.com


原文链接 (已下线): https://www.qdaily.com/articles/30822.html
Wayback 快照: http://web.archive.org/web/20190623182634/https://www.qdaily.com/articles/30822.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3yfgpssg4j30u05lzqv6