Felix Pinkston
2026/5/29 22:48
Together AIが最速のASRスタックを発表。NVIDIA Parakeet v3とWhisperを活用し、リアルタイムかつ低レイテンシーの文字起こしを実現。技術的詳細と市場への影響を解説。
Together AIは、世界最速と称する音声テキスト変換(ASR)スタックを発表した。20時間分の音声を10秒未満で文字起こしできるという。この画期的な技術は、NVIDIAのParakeet-TDT 0.6B v3とOpenAIのWhisper Large v3を活用しており、いずれも低レイテンシーおよび高スループットのアプリケーション向けに最適化されている。この開発は、同社がインフラを拡張するにあたって注力しているリアルタイム音声AIシステムを大きく前進させる可能性がある。
Together AIの成果の核心は、ASRをGPU推論のみに焦点を当てるのではなく、フルパスのシステム問題として捉えた点にある。この包括的なアプローチは、前処理、GPU実行、メモリ管理、ネットワーキングにわたるボトルネックに対処するものだ。たとえば、TensorRTプロファイルチューニング、条件付きCUDAグラフ、ゼロコピーデータパスといった革新によって、スタック全体のレイテンシーが大幅に削減された。
特筆すべき最適化(Optimization)のひとつが、Parakeet v3のデコーダーループだ。条件付きロジックをCPUからGPUに移行することで、Together AIはコストのかかる同期遅延を排除し、デコードの2〜3倍の高速化を実現した。同様に、ストリーミング文字起こしへの共有メモリとイベント駆動型I/Oの活用により、オーバーヘッドが最小化され、リアルタイムアプリケーションにおける高スループットと低ジッターの両立が可能となった。
Parakeet v3は、170万時間の音声データで学習された多言語ASRモデルであり、前バージョンから大きく進化した。現在は25のヨーロッパ言語をサポートし、自動言語検出機能を備え、英語文字起こしにおける業界トップのパフォーマンスを維持している。Together AIのプラットフォームはWhisper Large v3も統合しており、本番規模のワークロードに対応し、音声駆動アプリケーションを構築する開発者向けの強固なエコシステムを形成している。
市場ニーズへの対応
この発表により、Together AIはASR市場、特にリアルタイムおよびストリーミングのユースケースにおける有力な競合として位置づけられた。サイロ化されたパイプラインに依存する従来のASRシステムとは異なり、Together AIはモジュール式スタックを提供しており、音声テキスト変換(STT)、自然言語理解(NLU)、テキスト音声変換(TTS)が同一インフラ上で連携して動作できる。これによりレイテンシーが低減され、開発者が中間出力を検査・操作できるようになり、リアルタイム音声エージェントにとって重要な差別化要因となっている。
最近のパートナーシップは、オープンでコンポーザブルなエコシステム(コンポーザビリティ)の構築という同社の戦略を示している。2026年4月、DeepgramはASRモデルをTogether AIのプラットフォームに直接統合し、開発者が専門的な音声モデルをTogether AIのインフラと自由に組み合わせられるようにした。AIワークロードが音声、言語、マルチモーダル機能を統合したアーキテクチャへと移行するにつれ、この柔軟性はますます価値を高めている。
業界・投資家への影響
Together AIの進展は、2026年3月の報道によれば、同社が75億ドルの評価額での資金調達を検討しているとされる中で発表された。投資家の関心は、特に音声およびマルチモーダルAIシステムにおける高性能推論インフラへの需要の高まりを反映している。すでに45万人以上の開発者と200以上のオープンソースモデルをプラットフォーム上でサポートするTogether AIは、この勢いを活かす好位置にある。
DeepgramやGoogleといった競合他社がASR市場の一部を依然支配しているが、Together AIのオープンモデルホスティングとリアルタイムパフォーマンスへの注力は、大きな市場シェアを獲得する可能性がある。NVIDIAのASR技術の統合は、特にAIハードウェアとソフトウェア最適化(Optimization)におけるNVIDIAのリーダーシップを踏まえ、その技術的信頼性をさらに強固なものにしている。
音声インターフェースがコンシューマーおよびエンタープライズアプリケーションにとってより不可欠なものとなる中、Together AIのような低レイテンシーでスケーラブルなASRソリューションは、ユーザー体験への期待を再定義する可能性がある。同社がスタックの改良とエコシステムの拡大を続けるにあたり、開発者、投資家、企業はその動向を注視すべきだろう。
画像出典:Shutterstock
Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3







