このCPOは、A/Bテストを2分で構築する方法を教えてくれました。 (開発者は不要) 今日のエピソードでは、フレデリック・デ・トダロ氏にAI実験のマスタークラスを聞きました。 彼は実験のCPOを12 +年間務めています。 AIの時代に実験をマスターしたいなら... 🎬 今すぐ見る: 🎧 または、聞いてください: スポティファイ: 林檎: スポンサーに感謝します。 1. モビン: 2. Jira 製品検出: 3. 製品学部 - 550 ドルオフ: 4. Maven - 100ドルオフ: 私たちはカバーします: 1. AIの実験と 2. AI機能の実験 それぞれで私のお気に入りのポイントは次のとおりです。 1. AIの実験 a. AI がビルドのボトルネックをスピードに変換 バリエーションの構築には開発者が必要なため、ほとんどのチームの A/B テストはリリースの 20% 未満です。AI は、スプリントではなく、単純なプロンプトから数分で実験のバリエーションを生成することで、この制約を排除します。 b.マルチアームバンディット > A/B で時間に敏感 従来のA/Bテストでは、トラフィックを均等に分割し、統計的有意性を待つ。マルチアームの盗賊は、リアルタイムで勝つバリアントに徐々により多くのトラフィックを割り当て、見出しをテストするメディア企業に最適です。 1c. AIが「UXメモリ」をつくり→ミスの繰り返さない AI は実験履歴全体をスキャンし、すでに失敗したものをテストしようとしているときに警告を発します。この組織的な知識により、チームは以前に検証された行き止まりに時間を無駄にすることを防ぎます。 2. AI機能の実験 2a.使用量だけでなくビジネス成果を測定 AI 機能は、エンゲージメント指標だけでなく、毎日作成されるテストなど、コア ビジネス指標を移動させる必要があります。AI アシスタントが実際の実験速度を上げなければ、それは高価な劇場です。 2b.LLM-as-judge を使用して AI の精度を評価する 2 番目の AI モデルを設定して、プライマリ AI の応答の精度、関連性、コンテキスト品質を評価します。AI の回答に基づいて同様の質問を生成し、回答の関連性を自動的に検証します。 2c.AI RAGシステムを測定するための3つのステップ 忠実さ(答えはソースに真実ですか?)、関連性(質問に関連していますか?)、およびコンテキストの質(コンテキストは実際に有用ですか? 全文はこちら: P.S. 実験にAIを使っていますか?
4.55K