ソフトバンクの(意図しない)インシデント訓練すごかったですね。孫さんが狙っていたかは分かりませんが、現代人が抱える弱点を、単純なミスが突き崩すという意味では警鐘を鳴らしたと言えそうです。
toyokeizai.net
障害の原因はエリクソンの“ポカ”
エリクソンによると、MMEを構成するソフトウェアの証明書に齟齬(おそらくは一部の証明書が古く有効期限が切れる寸前だった可能性が高い)があり、グローバルで同じバージョンのMMEが同時に停止した模様だ。MMEが機能しなくなると、LTE基地局および基地局を結ぶ通信網が健全であったとしても、機器同士の通信は行えなくなる。
このため、英国でも同時刻に通信会社O2が同様の障害を引き起こしたほか、世界11カ国で同様のトラブルが同時多発的に発生したとみられている。しかも一部のMMEが障害を起こすといった一般的なITシステムがダウンするケースとは異なり、東京と大阪のデータセンターに配置されているMMEが(おそらくすべて)同時にストップしたという点で、極めて特殊な事例だ。
しかも、こうした“同時かつ広範囲”に通信網がダウンする事例が、電子証明書の齟齬という極めて初歩的と推察されるミスで引き起こされた。この障害事例は複雑ではない。まさに“ポカ”と表現されるような、エリクソンのミスだ。
(東洋経済記事から引用)
◆キタきつねの所感
東洋経済の記事がよくまとまっていたので引用しますが、原因が証明書の更新ミスと判明しています。ソフトバンクの公式発表では、そこまで踏み込んで書いていません。
そこで、エリクソン側の発表を見てみると「証明書」とはっきり書かれています。
※余談ですが、エリクソンのリリース前の日本語チェックはもう少し慎重に行った方が良いかと思います。英語から訳しているだけなのでしょうが、『問題あるソフトウェアは、現在廃棄処理を進めています。』の廃棄処理は誤訳だと思います。英語のリリースを見ると、『The faulty software that has caused these issues is being decommissioned 』とあるので、『当該ソフトウェア(の使用)を廃止(停止)した。』の意味だと思います。日本顧客に対する事件報告なのですから、インシデント対応としてはこの手の文言1つ1つもきちんとチェックしてからリリースすべきだったと思います。
ソフトバンクは、この事件は「エリクソン社製の交換機のソフトウエアに異常」の為と発表しています。他国のエリクソンを利用する通信キャリアでも同時期に障害が発生していますので、事実としては正しいのですが、果たしてソフトバンクに責は無かったのか?と考えると、私はそんな脆弱な状態であった事を気づかなかった部分において、ソフトバンクの責任は大きかったのではないかと思います。
東洋経済の記事をもう1度見てみると、
エリクソンによると、MMEを構成するソフトウェアの証明書に齟齬(おそらくは一部の証明書が古く有効期限が切れる寸前だった可能性が高い)があり、グローバルで同じバージョンのMMEが同時に停止した模様だ。MMEが機能しなくなると、LTE基地局および基地局を結ぶ通信網が健全であったとしても、機器同士の通信は行えなくなる。
このため、英国でも同時刻に通信会社O2が同様の障害を引き起こしたほか、世界11カ国で同様のトラブルが同時多発的に発生したとみられている。しかも一部のMMEが障害を起こすといった一般的なITシステムがダウンするケースとは異なり、東京と大阪のデータセンターに配置されているMMEが(おそらくすべて)同時にストップしたという点で、極めて特殊な事例だ。
(東洋経済記事から引用)
正副のデータセンター運用でも対応できなかった事が推測されます。ソフトバンクとして様々な障害対策、バがあったとは思いますが、心臓部の機器とは言え、1ベンダーの製品の設定(運用)ミスが、ソフトバンクの全通信を止める事を想定してなかったのは、ソフトバンクのリスクアセスメント(想定)が甘かったからだと言われても仕方がないのではないでしょうか?
また、違うポイントでは、エリクソンのソフトウェアが証明書を使っていた事、つまり更新が定期的に発生する可能性がある事を、ソフトバンク側が知っていたかどうか、も気になります。エリクソンが証明書を使った仕組みであり、更新がある事をソフトバンク側に告知していたのだとすれば、ソフトバンクの監督責任も問われるべきかも知れません。
ソフトバンク側が「知らされてなかった」あるいは「知らされていたが、そう重要だと考えていなかった」かは分かりませんが、
12月6日13時39分ごろ、東京センターと大阪センターに配置してあるエリクソン製パケット交換機全台数のソフトウェアに異常が発生した。9カ月前から運用しているという同ソフトウェアの異常は、エリクソンの通信設備を使用する海外11カ国の通信事業者でも、ほぼ同時刻に発生した。ソフトバンクでは、同ソフトウェアを旧バージョンに戻すことで復旧を試みた。
(IT Media記事より引用)
という報道もありましたので、ソフトが疑わしいと考えたにしても、証明書については復旧の際にあまりソフトバンク側は考慮してなかった事が伺えます。旧バージョンで復帰できたのだとすると、旧バージョンでは証明書を使ってなかった、旧バージョンでは証明書が更新さていた/自動更新される仕組みであったので、旧バージョンに戻しても問題なかった、、、と考えるのが普通ですが、仮に証明書が更新がされる仕組みであったのであれば、ソフトバンク側は旧バージョンにおける運用説明で、証明書更新がある事を知らされていた可能性が高い気がします。
その場合は、ソフトバンクの(新バージョンの)受け入れに問題があった可能性がありそうです。
いずれにせよ、今回の事件は大きなシステムであっても脆弱点があり、システムや回線を多重化していても、システムが止まってしまうリスクがあるえるのだと言う事を教訓として残した気がします。
そうやって考えると、特に基幹システム側で特定の国の製品が意図的な悪さをすると、情報漏えいだけでなく、全体システムを止めてしまう・・・そんな観点で下記の記事も読めてくるかも知れません。
jp.reuters.com
更新履歴