Amazon EKS:EFA向けDRA提供開始
画像: AI生成

Amazon EKSは、Elastic Fabric Adapter(EFA)向けのKubernetes Dynamic Resource Allocation(DRA)ドライバーを提供開始した。DRAはKubernetesのデバイス割り当てを宣言的に扱う新しい枠組みで、今回のドライバーは上流のDRANETプロジェクトをベースに構築されている。

最大の特徴は、PCIeルートまたはデバイスグループを共有するEFAインターフェースとアクセラレータを組にして割り当てる、トポロジーアウェアな配置である。ノード間トラフィックは各NVIDIA GPU・AWS Trainium・AWS Inferentiaに最も近いネットワークインターフェースを通るため、PCIeをまたぐ遠回りが減り、分散学習や大規模HPCのRDMA通信で効率が上がる。

もう一つの要点は、同一ノード上の複数ワークロード間でEFAインターフェースを共有できる仕組みだ。従来のEFAデバイスプラグインでは一つのインターフェースを一つのPodが占有する構造になりがちだったが、DRAドライバーはこれを共有可能にし、高コストなEFA対応NICの利用率を引き上げる。

適用条件は明確で、Kubernetes 1.34以降のEKSクラスターで、EKSマネージドノードグループまたはセルフマネージドノードを利用する新規デプロイが推奨対象となる。一方、KarpenterとEKS Auto Mode環境では引き続き従来のEFAデバイスプラグインが推奨されており、クラスタ構成によって採用パスが分岐する点は実装前に確認が必要だ。

提供範囲はEKSが利用可能な全AWSリージョンに及ぶ。P6e-GB200 UltraServerのような大規模GPUインフラを運用するチームにとって、ノード間通信の最適化をKubernetesネイティブな宣言で扱えるようになった意義は大きい。