Amazon SageMaker Feature Storeは、機械学習モデル向けの特徴量を保存・共有・管理するフルマネージドリポジトリである。今回のアップデートでは、SageMaker Python SDK v3.8.0以降から、Lake Formation連携によるアクセス制御と、Apache Icebergテーブルプロパティの設定が直接行えるようになった。
注目すべきは、フィーチャーグループ作成時に「オプトイン設定」としてLake Formation統合を選択できる点である。これにより、オフラインストアのデータに対して列レベル・行レベルのきめ細かいアクセス制御が適用できる。たとえばPII列を分析担当から遮断したり、特定リージョンのデータのみを参照可能にする運用が、SDK内のコードで宣言的に表現できる。
もう一方の柱がIcebergプロパティのサポートである。コンパクションやスナップショット有効期限といったテーブル管理パラメータをSDK経由で直接設定できるため、オフラインストアのストレージコスト削減とクエリ性能の最適化を、特徴量パイプラインのコード内で完結させられる。従来は別ツールやコンソールで管理していた領域がSDKに統合された形だ。
他社プラットフォームとの比較で言えば、Databricks Feature StoreやVertex AI Feature Storeもガバナンス機能を備えるが、AWSはLake FormationとIcebergという既存のデータレイク基盤と密結合させることで、特徴量ストアを独立した島ではなくレイクハウス全体の一部として運用する設計思想を示している。
実装着手時の注意点としては、アクセス制御がオプトイン方式のため、既存のフィーチャーグループは自動では保護されない点、SDK v2系からv3系への移行ではインターフェースが変わるためコード書き換えが伴う点が挙げられる。本番適用前にテスト環境でポリシーの粒度と挙動を切り分けて検証することが望ましい。