Låt oss bygga en Browser Automation Agent med gpt-oss (100 % lokalt):
Webbläsaren är fortfarande det mest universella gränssnittet med 4.3 miljarder sidor som besöks varje dag! Här är en snabb demo på hur vi kan automatisera det helt! Teknisk stack: - @stagehanddev AI-webbläsarautomatisering med öppen källkod - @crewAIInc för orkestrering - @ollama man kör gpt-oss Kom så går vi!🚀
Översikt över systemet: - Användaren anger en automatiseringsfråga. - Planner Agent skapar en automatiseringsplan. - Browser Automation Agent kör den med hjälp av verktyget Stagehand. - Svarsagenten genererar ett svar. Låt oss nu dyka in i koden!
1️⃣ Definiera LLM Vi använder tre LLM:er: - Planner LLM: Skapar en strukturerad plan för en automatiseringsuppgift. - Automation LLM: Utför planen med hjälp av verktyget Stagehand. - Svar LLM: Syntetiserar det slutliga svaret. Kolla in det här 👇
2️⃣ Definiera Automation Planner Agent Planner-agenten tar emot en automatiseringsuppgift från användaren och skapar en strukturerad layout som ska köras av webbläsaragenten. Kolla in det här 👇
3️⃣ Definiera Stagehand Browser Tool Ett anpassat CrewAI-verktyg använder AI för att interagera med webbsidor. Den utnyttjar Stagehands datoranvändningsfunktioner för att självständigt navigera i webbadresser, utföra sidåtgärder och extrahera data för att svara på frågor. Kolla in det här 👇
4️⃣ Definiera Browser Automation Agent Browser Automation Agent använder det tidigare nämnda Stagehand-verktyget för autonom webbläsarkontroll och plangenomförande. Kolla in det här 👇
5️⃣ Definiera svarssyntesagent Synthesis Agent fungerar som slutlig kvalitetskontroll och förfinar utdata från webbläsarens automatiseringsagent för att generera ett polerat svar. Kolla in det här 👇
6️⃣ Skapa CrewAI Agentic Flow Slutligen kopplar vi ihop våra agenter i ett arbetsflöde med hjälp av CrewAI Flows. Kolla in det här 👇
Färdig! Låt oss se vårt arbetsflöde för webbläsarautomatisering med flera agenter i aktion! 🚀 Kolla in det här 👇
Du hittar all kod och allt du behöver i GitHub-förvaret som delas nedan. Kolla in det här 👇
För att sammanfatta, här är systemöversikten för din referens: - Användaren anger en automatiseringsfråga. - Planner Agent skapar en automatiseringsplan. - Browser Automation Agent kör den med hjälp av verktyget Stagehand. - Svarsagenten genererar ett svar. Kolla in det här👇
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar ✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!
Akshay 🚀
Akshay 🚀10 aug. 20:51
Låt oss bygga en Browser Automation Agent med gpt-oss (100 % lokalt):
87,04K