音声AIは2030年までに1億ドルを超えると予測されています。🤖 流行っているからではなく、基盤になりつつあるからです。 すべてのアシスタント、コールセンターの職員、すべてのロボット、人間と関わる自律システムは音声を理解する必要があります。言葉だけでなく、口調や文脈、意図も含めて。 需要は明白です。 しかし、あまり明白ではないのは制約です。 ほとんどのボイスモデルは制御されたデータセットで訓練されています。クリーンな録音。スピーカープールが限られている。アクセントの分布が狭い。支配的な言語のいくつかが何度も過剰に代表されてきました。 それでいい。グローバル展開までは。 現実の世界は一つのアクセントで話すわけではないからです。 ボゴタではスペイン語を話し、マドリードではスペイン語を話しますが、聞こえ方が違います。ラゴス、ロンドン、マニラでは英語を話しています。すべてが違う。方言を融合させています。文化的なリズムを運んでいます。文脈によってトーンが変わります。 その多様性は実験室で作り出すことはできません。180+か国で何百万人もの話者を、本物の言語的変異や実際の文脈でシミュレートすることはできません。 そして、そこにギャップが現れます。 次世代の音声AIは、同じものをさらに多く訓練したため勝てません。より広範で豊かで代表性のある発言を訓練したため、勝利するでしょう。 高品質です。きれいだ。同意に基づくもの。しかし世界的には多様です。 多言語でアクセントが豊富な、実世界の音声データを大規模に使うのは依然として希少です。 それがチャンスだ。私たちは爆発的に増加🤫する需要のための供給を築いています