On 27/01/26 22:00, BIG Umberto wrote:
>Ho dato a chatgpt e poi a gemini una foto di orecchini da modificare:
>
>
>Prompt:
>genera una immagine usando questa foto come campione.
>il metallo è filigrana oro, la pietra è una perla bianca.
>sotto ciascuno oggetto ci sono 5 file di 5 perline bianche
> leggermente ovali e più piccole della perla centrale unite tra
> loro e attaccate ai due oggetti da anellini piccoli in
> oro.
>Ci devono essere esattamente 5 perline per fila.
>
>Perché questo?
>Voglio avere una immagine più realistica possibile di un paio di
> orecchini che aveva mia madre.
>
>Chatgpt si sbizzarrita con le combinazioni delle perline per ogni
> ramo con numeri sempre diversi, ad un certo punto dopo tantissimi
> tentativi di cui gli ultimi sempre uguali e con lo stesso errore,
> ha gettato la spugna:
>"Verità tecnica (senza indorare la pillola)
>Il generatore di immagini non è affidabile per vincoli numerici
> rigidi come:
>“5 file × 5 perle”
>soprattutto quando una fila è centrale e visivamente dominante
>Anche forzando il prompt, continua ad aggiungere una perla centrale.
>Questo non è correggibile con ulteriori rigenerazioni fotografiche
> automatiche.
>Continuare così significa ripetere lo stesso errore all’infinito."
>
>Gemini, con nano banana, è partita subito con questo risultato,
> identico a quello finale di chatgpt:
>
>
>Che sarebbe giusto tranne che nella fila centrale ci sono 6 perline.
>
>Poi si è sbizzarrita in alcune immagini dalle forme piú diverse.
>
>Fino ad arrivare ripetutamente a questa:
>
>
>Che è sbagliata nel disegno ed ha sempre una perlina in più nella
> fila centrale!
>
Gemini 3 sta per lanciare una nuova funzione di "ragionamento visivo" che
quasi certamente risolvera' questo problema. Perche' al momento pare che i
modelli AI attuali non abbiano capacita' di ragionamento matematico visivo
(ancora per poco..).
Cmq curiosita': pure io avevo provato a generare con diversi tool una
ragazza con gli orecchini... Stesso problema...per variazioni minimali di
immagini ci stanno tool fatti apposta...(tipo "whisk" di Google...). Ti
lascio qualche link di approfondimento:
https://www.punto-informatico.it/gemini-3-flash-nuova-capacita-ragionamento-visivo/
https://labs.google/fx/it/tools/whisk/project
(Per divertirti un po'...e fare prove...
Tuttavia whisk e' simile a nanobanana serve solo per evitare di discostarsi
da un carattere o da una immagine e ottenere immagini coerenti con quella
di riferimento... Non fa ragionamento visivo matematico)
--
Posted from
PhoNews Pro for Android V.3.13.3
News.individual.net - Addio dal 30 sett 2027!! :-(