産業全般のデジタル化が加速し、数千台のサーバーと数百のサービスインスタンスを安定的に運用することは必然的な課題となりました。特に、全国単位でリアルタイムサービスを提供しなければならない通信会社の場合、中断のない運用と迅速な障害対応が、顧客体験向上の核心的要素として作用します。
LG U+は、このようなニーズに先手を打って対応するため、従来のモニタリングシステムを全面的に再整備し、既存のレガシーシステムと新規システムを運用するハイブリッドインフラを一つの基準として標準化し、統合管理することに成功しました。今回の事例では、LG U+が数年にわたって蓄積したインフラ運用ノウハウとともに、多様なシステム間の連携を可能にしたWhaTap導入の背景とその成果を詳しく紹介します。
LG U+は、加入回線数が7,000万を超える大韓民国の代表的な通信会社の一つで、有線・無線通信、IPTV、スマートホーム、企業ソリューションなど、多様なサービスを提供しています。デジタル転換が加速する市場環境の中で、LG U+は自社データセンター内のオンプレミス環境とAWSベースのパブリッククラウドを共に運用し、サービスの品質向上と安定したIT運用のための技術革新を持続的に推進しています。
LG U+は、1日平均1億件のトランザクションを1,000台以上のVMおよびコンテナベースのシステムで処理しており、大規模なトラフィックと高度な分散アーキテクチャを運用する、韓国内の代表的なエンタープライズ事例の一つです。
.LG U+の顧客管理システムは、10年前に構築されたモノリシックアーキテクチャを基盤としており、Oracle RAC中心の統合DBとUNIXサーバー上で運用されてきました。しかし、加入者数の急増に伴い、1日1億件以上のトランザクションを処理しなければならない環境に変化し、既存のインフラとソフトウェア構造は拡張性と俊敏性の面で限界に直面しました。
統合DBはスケールアップの限界に達し、従来のUNIXサーバーは増設しても効果が低く、Query中心のスクリプトベースのソフトウェアは変更影響度の分析が難しく、アプリケーションの複雑性と開発速度の両方に問題を抱えていました。これを受け、LG U+は、ビジネスの俊敏性、可用性、拡張性、そして運用コスト削減を目標に、新たなシステムを構築することを決めました。
新しいシステムはマイクロサービスアーキテクチャ (MSA) とハイブリッドクラウドを基盤に設計され、多様なオープンソースコンポーネントと外部連携システムを含む、複雑な分散構造に移行されました。しかし、このような構造の変化はすぐに新たな運用課題につながりました。モニタリング対象が急激に増加し、従来のモノリシック環境では考慮する必要のなかった分散トレーシング、統合ログ収集、コンポーネント間の影響分析など、複雑なモニタリング要件が新たに浮上したのです。
LG U+は、ますます複雑になるモニタリング要件を解決するために、従来使用していたアプリケーション監視、データベース監視、サーバーインフラ監視の業務を一元化できるソリューションの導入を進め、WhaTap Monitoringを選択しました。特に、トランザクションIDを連携してシステム全般の呼び出しフローを追跡できる分散トレーシング機能が、核心的な決定要因でした。
WhaTapは、グローバルトランザクションIDと独自のMTID (Multi Transaction ID) を通じて、レガシーと新規システムの両方において一貫した基準で呼び出しフローを追跡できるようにサポートしました。これとともに、KAFKAメッセージング基盤の中継処理のような非同期ベースのサービスもWeaving技術を通じてトランザクションの連携を可能にしました。特に、レガシーシステムについても、コード修正なしにトランザクションIDを挿入し、追跡できる点が高く評価されました。
ハイブリッドクラウド構造もWhaTapが自然に対応できた領域です。パブリッククラウドのトラフィックコストを考慮し、クラウド内で収集サーバーを分散構成し、プライベート環境ではアーキテクチャチーム、IPTV、認証サービスなど部門単位で収集サーバーを配置し、独立性と統合管理を同時に実現しました。
また、さまざまなログ収集環境も対応カテゴリに含まれています。インフラログはElasticsearch-Fluentd-Kibana (EFK) スタックで、アプリケーションログはフレームワークに対するコード修正なしにWhaTapで収集し、プログラム変更なしでも柔軟にログ戦略を運用できるようになりました。
WhaTap導入後、LG U+は「これまで見えなかった分散処理フローが見えるようになった」と評価しました。グローバルトランザクションIDがない場合でも、WhaTapが自動で発行するMTIDを活用して全体の呼び出しフローを視覚化でき、サービス間の呼び出し関係やボトルネックをリアルタイムで把握できるようになりました。運用チームはアラームが発生すると、直ちに該当箇所に移動し、リソース・トランザクション・ログを連携分析することで、障害対応速度が大幅に改善しました。
また、単一リスナーサーバー構造により、ファイアウォールの開放などのアクセス権管理のセキュリティも強化され、新規サービスを適用する際には、統合モニタリングツールであるWhaTapのインストールが必ず求められるなど、全社的な標準化ツールとして運用されています。
LG U+は、2018年のアプリケーション性能管理 (APM) 導入を皮切りに、サーバーインフラ監視 (SMS)、データベース監視 (DPM)、Kubernetes、ログ統合モニタリングまで段階的にモニタリング高度化の範囲を拡張してきており、現在はブラウザモニタリングの導入も検討中です。これは、システムごとにサイロ化されたさまざまな監視ツールを導入/運用するのではなく、WhaTap Monitoringという単一のツール(プラットフォーム)でも十分な拡張性と柔軟性を確保できることを示す事例です。
また、NettyとAkkaベースの非同期システムにもWhaTapのWeaving機能を適用し、ソースコードの修正なしに追跡監視できるモニタリングを実現しており、オンプレミスおよびクラウド環境でもモニタリングサーバーを統合運用することで、パッチおよびメンテナンスを安定的に管理しています。これは、全社レベルでモニタリング基準を統一し、運用の複雑性を効果的に軽減した事例と評価されます。
LG U+は、 WhaTapの導入により、業務ごとに分散していたITモニタリング環境を全社的に統合し、障害対応と運用の可視性を大幅に向上させました。トランザクションベースの追跡システムを標準化し、障害の原因を迅速に把握して対応できる構造を整え、オンプレミスとクラウドを合わせた柔軟な拡張性も確保しました。
1つのダッシュボードでシステム全体の流れを俯瞰し、サービス間の呼び出し関係をコンテキストに沿って追跡し、ライセンス構造を単純化して不要なコスト削減まで実現したこの事例は、複雑なインフラを運用するエンタープライズ企業にとって、優れたBest Practiceを提供するものです。
DevOpsやITインフラ組織が信頼できるOSについて悩んでいるなら、LG U+のように、WhaTapによる統合的かつ柔軟なモニタリング環境を構築する方法の検討をおすすめします。