航空公司電腦系統龐大,有時候卻能因為一個小部件引起全局癱瘓,這種短板效應正在對各國航空業提出更高的要求。

而近日英國航空公司(British Airways)的當機事件只是其中一件,在國際化的今天,當機足已影響全球。

故障開始於英國當地時間星期六(5月27日),因電腦故障,英航取消約800班航班。除了國內航線大部份被取消,英航來往多個城市的航班也受影響,包括飛往羅馬、布拉格、希拉格、斯德哥爾摩和馬拉加的飛機停飛。

英航飛往亞洲主要的航點——包括香港國際機場、北京首都國際機場、上海浦東機場、新加坡樟宜機場、東京成田國際機場和曼谷素萬那普國際機場——航班都被取消。

到星期日(5月28日),部份電腦系統已經恢復,但還有航班受影響需延誤,乘客持續滯留機場,網上傳出乘客蓋毛毯睡地板、靠在行李車上打盹的圖片。

星期一(5月29日),電腦系統修復完成,據悉英航計劃當天恢復95%以上的倫敦希斯路(Heathrow)和格域(Gatwick)機場之間的航班。

近幾年來,因電腦當機引發的機場混亂幾乎年年有。就在上個月,德國漢莎航空公司(Lufthansa)和法國航空公司(Air France)電腦也出現當機,發生短時間內不能讓乘客登機的現象。在電腦技術發展的今天,為何連小企業都能輕易通過雲端處理器操作業務,而大型航空公司每年耗費巨資,卻頻現當機事件?原因何在?航空電腦系統的升級與維護再次引起大家的關注。

三因素可能引發航空電腦當機

航空專家稱有三個因素會導致電腦系統當機。這也是每次航空公司電腦當機後,一一排除的三個因素。

第一、無備用系統或備用系統不工作。有的航空公司可能沒有備用電腦系統,但值得關注的是,近年來大型航空公司發生的當機事件中,基本上都是未能正常啟動備用系統。

第二、黑客惡意攻擊。航空公司都有加強安全性,以防黑客攻擊網站,獲取公司或客戶信息。這是目前最容易被懷疑、擔憂的造成電腦當機的原因。

在英航當機當天,英航首先排除的就是電腦網絡未遭受襲擊。英航行政總裁克魯茲(Alex Cruz)表示,初步調查認為事故原因跟電腦的電力系統有關。

第三、人為錯誤導致。分層系統可能隨著時間,突然出現某種故障,導致整個系統崩潰。這個原因就需要較長時間來查明和修復。

短板效應 小零件影響大系統

在過去五年間,美國有三分之一大型企業都表示曾發生過至少一次大型的電腦當機事件。《華爾街日報》在2016年指,系統複雜性增高會產生更多的當機與恢復速度變慢的問題。像航空公司通過各層架構——每一層系統具有不同的配置、有不同的功能——都會意外地增加電腦網絡當機的風險。

「網絡規模、嵌入或連接網絡的設備數量都在持續增加」,航空顧問曼尼(Bob Mann)表示,「即使是最信賴的設備仍然有出錯的概率,只是比較隨機和出錯少。因此,在設備越多的情況下,任何一個設備出錯,產生的潛在危害都會越大。」

對航空電腦系統而言,需要把電腦與數十億的其它電子設備或電器連在一起時,有時由於一些小部件當機。IT諮詢公司高德納(Gartner)的利坦(Avivah Litan)表示:「當機可能是上百個獨立部件引起,軟體、硬體或者網絡都有可能。」

比如2016年7月,美西南航空公司電腦系統癱瘓的原因是,系統中有一個路由器出現故障;而同年8月,達美航空公司也出現電腦當機,原因是重要系統與網絡設備沒有轉換到備份系統,大約7,000個資料中心零部件中有300個沒有配備到備用電源。

但是這種短板效應,由小部件引發的影響卻能影響全局。「任何單一部件的問題都會放大到整家企業,因為在系統恢復過程中,各項服務間所有協調過程對企業而言都是一個大工程。」利坦分析道。

航空電腦拼湊升級留隱患

另外一個可能導致航空電腦系統不工作的原因是,電腦系統裏新舊並存,既有領先的新技術應用,同時也在不斷升級老技術,可能新老技術之間存有磨合的可能。

專家稱,現代航空公司背後的電腦系統並不現代,有些仍在沿用過去幾十年的舊系統,一直靠拼湊升級維護;但在面對現在的高需求下,可能舊系統滯後或力不從心。美聯社指,這些年航空業快速整合,電腦系統也可能成為包含各種不同年代及不同合併公司原有系統的大雜燴,隨著客流量的增加,電腦系統承擔的工作負擔更重,要進行處理的作業也多很多,出問題的可能性也會越多。

「現在的電腦系統存在大量的『拼湊』升級,但是又沒有更好的辦法來改變這種情況,除非徹底改革整個航空業的電腦基礎設施,才能真正改善IT系統運作。」航空公司新聞(Airways News)商業分析師巴斯卡拉(Vinay Bhaskara)告訴商業內幕(Business Insider)。

「航空業電腦系統有很多標準,整個行業需要大改變才行。」巴斯卡拉表示。而這種改變不可能來自某一航空公司或供應商,只能期待領先的航空公司或科技公司來引領航空業到另一個科技高度。

防當機 先保證備用系統工作

要預防電腦當機,專家指解決辦法就是安裝更為自動化的備用系統。在不忙碌的時間段,讓現運行的系統脫機,並同時啟動輔助和備用系統,確保後者能夠正常工作。

按道理,航空公司(尤其是大型)都有備用應急恢復系統,但近年來少見備用系統起作用。2015—2017年發生的航空公司電腦當機事件中,至少有兩宗因為電力供應問題引起備用系統不工作。

所以不是說有備用系統,而是要保證備用系統能正常工作。因為航空公司跟銀行和零售商店不同,要是出現電腦故障,處理會特別麻煩,從操作航班、處理票務、登機以及行李運送等,再到航空公司網站以及手機App程式,都離不開這套系統。一出問題,往往需要花上幾小時甚至幾天才能發現故障原因,成功修復。

「每個人都要面對有時技術靠不住的時候,但是你要有足夠的彈性,如果不能在幾分鐘之內快速恢復系統,或許可以(保證)在半小時以內恢復。」利坦表示。

電腦系統「外包安全性」再惹關注

外包部份電腦系統是航空業常見的做法,「外包安全性」質疑在英航當機事件中再次被提出。英航工會GMB將本次當機事件歸咎於英航把電腦系統服務外包,指2016年英航的電腦系統就存在缺陷,因為英航一方面省錢,裁減IT員工,另一方面將工作外包給印度。

面對質疑,英航強調外包是行業做法,並沒有因為外包而忽視安全。英航行政總裁克魯茲告訴英國天空新聞台(Sky News),本事件不是因為電腦系統外包服務所致。「這次事件涉及的各方都不存在任何類型的境外外包。它們全是當地數據中心在當地(發生的)問題,也同樣找當地資源進行管理和修復。」

因為航空業的特殊性,尤其是國際航班,航空電腦與政府的禁飛名單(No Fly Lists)以及簽證系統相連,所以對安全性要求非常高。《航空週刊》的卡普蘭(Seth Kaplan)表示:「因為他們在安全與安保方面必須有大量考慮,所以有些方面它們被限制住、而其它商業則不會觸及這些。」因此,航空公司也不可能像其它商業那樣,把電腦系統完全交托給第三家公司來運轉,通過雲端處理器輕鬆完成各項事宜。

換句話說,在備用與安全之間,航空公司不自主地必須選擇後者。這也是英航回應工會指責時,強調英航不會犧牲系統的安全,並表示本次事件沒有涉及電腦系統的外包事宜的原因。

除了外包,專家表示還有以下原因可能影響航空公司對電腦系統的投入與維護:第一、航空公司裁減與電腦系統相關的IT支出,包括把IT系統的保養與修復經費轉作客服端的應用程式與服務;第二、在併購企業中,為整合部門或為了省錢,直接使用或導入新併購公司的IT系統,也會造成IT風險增加;第三、航空公司商業與科技團隊之間缺乏協作能力,也同樣會導致電腦系統恢復速度緩慢。

每次當機事件會給航空公司帶來巨大經濟損失,所以在一定程度上,這也是航空公司改進電腦系統的契機,只是說代價很大。比如這次英航電腦當機正好趕在長周末以及學校放假期間,有上千名旅客出行受影響,據估計至少給英航帶來近七千萬美元的經濟損失。

根據飛行補償網站Flightright.com估計,星期六和星期日兩天,英航在希斯路和格域兩個機場約取消800次航班。根據歐盟規定,英航可能要支付約6,800萬美元(6,100萬歐元)賠償金,這還不包括顧客入住酒店的報銷費用。

而受影響的乘客除了等待,重新預約航班、打電話聯繫行李外,還可以記住一條:在登記台(Check-in)託運行李時,不要託運牙刷,以備不時之需。