Denne CPO-en viste meg hvordan jeg skulle bygge A/B-tester på 2 minutter. (Ingen utviklere nødvendig) I dagens episode satte jeg meg ned med Frederic De Todaro for en mesterklasse i AI-eksperimentering. Han har vært CPO i eksperimentering i 12+ år. Hvis du vil mestre eksperimentering i AIs tidsalder... 🎬 Se nå: 🎧 Eller lytt: Spotify: Eple: Takk til våre sponsorer: 1. Mobbin: 2. Jira-produktoppdagelse: 3. Produktfakultet - $550 rabatt: 4. Maven - $100 rabatt: Vi dekker: 1. Eksperimentering med AI og 2. Eksperimentering for AI-funksjoner Her var mine favoritt takeaways på tvers av hver. 1. Eksperimentering med AI AI forvandler byggeflaskehalsen til fart De fleste team A/B-tester mindre enn 20 % av utgivelsene fordi byggevariasjoner krever utviklere. AI eliminerer denne begrensningen ved å generere eksperimentvariasjoner fra enkle meldinger på få minutter i stedet for sprint. b. Flerarmede banditter > A/B for tidssensitiv Tradisjonelle A/B-tester deler trafikken likt og venter på statistisk signifikans. Flerarmede banditter allokerer gradvis mer trafikk til vinnende varianter i sanntid, perfekt for medieselskaper som tester overskrifter. 1c. AI skaper "UX-minne" → forhindrer gjentatte feil AI kan skanne hele eksperimenthistorikken din og advare når du er i ferd med å teste noe som allerede har mislyktes. Denne institusjonelle kunnskapen hindrer team i å kaste bort tid på tidligere validerte blindveier. 2. Eksperimentering for AI-funksjoner 2a. Mål forretningsresultater, ikke bare bruk AI-funksjoner bør flytte kjernevirksomhetsberegningene dine – som eksperimenter som opprettes daglig – ikke bare engasjementsmålinger. Hvis AI-assistenten din ikke øker den faktiske eksperimenteringshastigheten, er det dyrt teater. 2b. Bruk LLM som dommer for å evaluere AI-nøyaktighet Konfigurer en annen AI-modell for å vurdere svarene til den primære AI-en for nøyaktighet, relevans og kontekstkvalitet. Få den til å generere lignende spørsmål basert på AI-svar for å bekrefte svarrelevansen automatisk. 2c. Tre trinn for å måle AI RAG-systemer Se på trofasthet (er svaret sant for kilden?), relevans (er det relevant for spørsmålet?) og kontekstkvalitet (er konteksten faktisk nyttig?) Full artikkel her: P.S. Bruker du AI til å eksperimentere?
4,54K