近年の目覚ましいAI進展は、ディープラーニング技術の向上がこれを支えている。実際にディープラーニングで構築されたモデルを動かすにあたっては、「学習」と「推論」という重要な2つのフェーズがある。例えば、臨床に導入される一般的な医療AI製品は(当然学習済みなので)、このうちの「推論」が動いていることとなる。したがって「ディープラーニングにおける推論の高速化」は、医療AIの実運用と展開において非常に重要なファクターと言える。今週、NVIDIAはディーブラーニング推論の最適化・実行ライブラリである「TensorRT」の最新版をリリースした。
NVIDIA News Centerの公表によると、今回リリースされた「TensorRT 6」では、対話型AIアプリケーション・音声認識・医療向けアプリケーションにおける3D画像のセグメンテーションなどを劇的に高速化する新機能が搭載されているという。新たに追加された最適化機能の利用により、複数のT4 GPUでBERT-Largeモデルの推論をわずか5.8ミリ秒で実行することができるとのこと。快適で魅力的な利用体験を得るためには、BERTのような自然言語理解モデルを10ミリ秒未満で実行する必要があった。今回の劇的な高速化技術は、特に言語ベースのインタラクションを行うユーザーの大幅な体験向上に結びつく。なお、推論のパフォーマンスについてはこちらを参照のこと。