Cel mai recent produs AI al Google, „Whisk”, permite utilizatorilor să încarce fotografii pentru a obține o imagine combinată, generată de AI, fără a fi nevoie să tasteze vreun cuvânt.
Înainte ca Whisk să amestece fotografiile, utilizatorii pot furniza imagini ale subiecților, setărilor și stilurilor.
Într-o postare pe blog, Google a numit Whisk un „instrument creativ” pentru inspirație rapidă, nu un „editor de imagini tradițional”. Whisk este menit să fie o funcție distractivă AI, nu un instrument profesional.
Companii mari de tehnologie precum Google și OpenAI se grăbesc să ofere produse pentru consumatori care demonstrează tehnologia nouă și interesantă, chiar dacă detractorii avertizează că creșterea AI fără limite este periculoasă pentru omenire.
De când OpenAI a introdus Dall-E, un instrument de producție text-la-imagine, în 2021, lucrările de artă generate de AI au inundat rețelele de socializare și au pătruns în obiectele de consum. Google Whisk este un generator imagine-la-imagine care se bazează pe generatoarele text-la-imagine.
Utilizatorii Whisk pot modifica intrările lor și pot amesteca categorii pentru a crea jucării de pluș, broșe emailate și stickere. Utilizatorii pot direcționa detaliile folosind cuvinte, dar o imagine nu este necesară.
„Whisk este conceput pentru a permite utilizatorilor să refacă un subiect, o scenă și un stil în moduri noi și creative, oferind explorare vizuală rapidă în loc de modificări perfecte pixel cu pixel”, a declarat Thomas Iljic, directorul de management de produs Google Labs.
Google a achiziționat DeepMind în 2014 și a folosit AI-ul său generativ pentru a construi Whisk.
Whisk folosește serviciul principal AI al Google, Gemini, introdus în decembrie 2023, și Imagen 3, cel mai recent generator de text-la-imagine al lui DeepMind.
Imagen 3 primește titluri de la Gemini atunci când utilizatorii postează fotografii. Pentru a refața imaginea finală, tehnica capturează „esența” subiectului în loc de o reproducere exactă, care poate să se abată de la prompt.
Google a declarat într-o postare pe blog că imaginea creată poate diferi de fotografiile prompt din punct de vedere al înălțimii, tunsorii sau tonului pielii.
Google a primit critici în februarie când a lansat convertorul text-la-imagine al lui Gemini, deoarece a creat imagini istoric incorecte.
Whisk, un site Google Labs disponibil doar în SUA, este într-o fază incipientă de dezvoltare, a declarat compania.
OpenAI a prezentat Sora, un generator de text-la-video, demonstrând competiția în domeniul produselor pentru consumatori.
Directorul managing și analistul principal al acțiunilor de la Wedbush Securities, Dan Ives, a declarat pentru CNN că Whisk este încă un „moment de întindere a mușchilor” pentru Google în domeniul AI și tehnologiei.
Bunurile AI fac parte din „comoara” Google pentru 2025, care include un nou sistem de operare Android dezvoltat împreună cu Samsung și Qualcomm. „DeepMind este un activ-cheie pentru Google”, a spus Ives.