Teknologiajätit käyttävät Multimodal RAG:ia joka päivä tuotannossa! - Spotify käyttää sitä musiikkikyselyihin vastaamiseen - YouTube käyttää sitä kehotteiden muuttamiseen raidoiksi - Amazon Music käyttää sitä soittolistan luomiseen kehotteesta Opetellaan rakentamaan multimodaalinen agenttinen aluetukialue (koodilla):
Tänään rakennamme multimodaalisen Agentic RAG:n, joka voi kysellä asiakirjoja ja äänitiedostoja käyttäjän puheen avulla. Tekninen pino: - @AssemblyAI transkriptiota varten. - @milvusio vektorina DB. - @beam_cloud käyttöönottoon. - @crewAIInc Työnkulut orkestrointia varten. Rakennetaan se!
Tässä on työnkulku: - Käyttäjä syöttää tietoja (ääni + asiakirjat). - AssemblyAI litteroi äänitiedostot. - Transkriboitu teksti ja dokumentit upotetaan Milvus-vektoritietokantaan. - Tutkimusagentti hakee tietoja käyttäjän kyselystä. - Vastausagentti käyttää sitä vastauksen laatimiseen. Tarkista tämä👇
1️⃣ Tietojen käsittely Aluksi käyttäjä antaa teksti- ja äänisyötetiedot datahakemistoon. CrewAI Flow toteuttaa logiikan tiedostojen löytämiseksi ja niiden valmistelemiseksi jatkokäsittelyä varten. Tarkista tämä👇
2️⃣ Litteroi ääni Seuraavaksi litteroimme käyttäjän äänisyötteen AssemblyAI:n Speech-to-text-alustalla. AssemblyAI ei ole avoimen lähdekoodin, mutta se antaa runsaasti ilmaisia krediittejä SOTA-transkriptiomalliensa käyttämiseen, jotka ovat enemmän kuin riittäviä tähän demoon. Tarkista tämä👇
3️⃣ Upota syöttötiedot Jatkossa yllä olevan vaiheen litteroitu syöttödata ja syötetty tekstidata upotetaan ja tallennetaan Milvus-vektoritietokantaan. Näin teemme sen 👇
4️⃣ Käyttäjän kysely Nieleminen on ohi. Nyt siirrytään päättelyvaiheeseen! Seuraavaksi käyttäjä syöttää äänikyselyn, jonka AssemblyAI litteroi. Tarkista tämä👇
5️⃣ Hae konteksti Seuraavaksi luodaan kyselylle upotus ja haetaan olennaisimmat palat Milvus-vektoritietokannasta. Näin me teemme sen 👇
6️⃣ Luo vastaus Kun meillä on asiaankuuluva konteksti, miehistöämme kutsutaan luomaan selkeä ja lainattu vastaus käyttäjälle. Tarkista tämä 👇
Lopuksi käärimme kaiken puhtaaseen Streamlit-käyttöliittymään ja otamme sovelluksen käyttöön palvelimettomaan säilöön Beamin avulla. Tuomme tarvittavat Python-riippuvuudet ja määritämme säilön laskentamääritykset. Ja sitten otamme sovelluksen käyttöön muutamalla koodirivillä👇
Kun se on otettu käyttöön, saamme 100-prosenttisesti yksityisen käyttöönoton juuri rakentamallemme Multimodal RAG Agentic -työnkululle. Katso tämä demo 👇
Tässä on toteuttamamme työnkulku: - Käyttäjän antamat tiedot (ääni + dokumentit) - AssemblyAI litteroi äänitiedostot - Litteroitu data upotetaan vektoritietokantaan - Tutkimusagentti haki tietoja käyttäjän kyselystä - Vastausagentti käytti sitä vastauksen laatimiseen Tarkista tämä👇
Jos se oli mielestäsi oivaltava, jaa se uudelleen verkostosi kanssa. Etsi minut → @akshay_pachaar ✔️ Lisää näkemyksiä ja opetusohjelmia LLM:istä, tekoälyagenteista ja koneoppimisesta!
Akshay 🚀
Akshay 🚀5.8.2025
Teknologiajätit käyttävät Multimodal RAG:ia joka päivä tuotannossa! - Spotify käyttää sitä musiikkikyselyihin vastaamiseen - YouTube käyttää sitä kehotteiden muuttamiseen raidoiksi - Amazon Music käyttää sitä soittolistan luomiseen kehotteesta Opetellaan rakentamaan multimodaalinen agenttinen aluetukialue (koodilla):
422