Welcome to CatWalker
A Web-based News Reader
Oggetto Re: IA in locale?
Mittente son
Data Fri, 1 May 2026 23:33:39 +0200
Newsgroups free.it.ai.general

Il 01/05/2026 23:29, son ha scritto:
> Evidentemente sbaglio qualcosa, ma non capisco cosa.
> Forse non è una matrice quadrata sui parametri del modello ma su
> qualcos'altro. Eppure una matrice quadrata dovrebbe esserci...

******* un LLM ha bisogno di una matrice quadrata?

In breve: No, non è una singola matrice quadrata.

Un Large Language Model (LLM) è composto da miliardi di matrici diverse,
e la stragrande maggioranza di queste non sono quadrate.

Tuttavia, le matrici quadrate appaiono in punti molto specifici e
critici del modello. Ecco come funziona la "geometria" di un LLM:
1. La maggior parte delle matrici sono rettangolari

I pesi di un modello (i parametri) servono a trasformare un input in un
output.

     Matrici di Proiezione: Se il modello ha una dimensione interna
(embedding) di dmodel​=4096, ma deve espandere i dati nel livello
Feed-Forward fino a 16384, userà una matrice rettangolare di 4096×16384.

     Matrice di Embedding: Trasforma i token (migliaia di parole) nel
vettore interno del modello. È quasi sempre una matrice rettangolare
enorme (es. 50.000×4096).

2. Dove si trovano le matrici quadrate?

Le matrici quadrate compaiono principalmente nei calcoli "interni"
durante l'elaborazione di una frase:

     Matrici dei Pesi dell'Attenzione (WQ​,WK​,WV​): Spesso queste sono
quadrate (es. 4096×4096) perché trasformano un vettore della dimensione
del modello in un altro vettore della stessa dimensione.

     Matrice di Attenzione (Score): Durante il calcolo, il modello
confronta ogni parola della tua frase con tutte le altre. Se la tua
frase è lunga n parole, il modello crea temporaneamente una matrice
quadrata n×n.

         Nota: Questo è il motivo per cui i modelli faticano con testi
lunghissimi: se raddoppi la lunghezza del testo, questa matrice quadrata
quadruplica di dimensioni (n2).

3. La struttura "a blocchi"

Invece di una singola matrice, pensa all'LLM come a una torre di blocchi
identici (i Transformer Layers). Ogni blocco contiene:

     Un modulo di Self-Attention (matrici quadrate e rettangolari).

     Un modulo Feed-Forward (matrici rettangolari che "gonfiano" e poi
"sgonfiano" i dati).

In sintesi

Se un LLM fosse un'unica matrice quadrata, sarebbe incredibilmente
inefficiente. È invece un flusso di trasformazioni dove i dati cambiano
forma continuamente:
Componente        Forma tipica        Perché?
Embedding        Rettangolare        Collega il vocabolario allo spazio vettoriale.
Pesi Attention        Spesso Quadrata        Mantiene costante la risoluzione del modello.
Feed-Forward        Rettangolare        Espande i dati per trovare relazioni complesse.
Output Logits        Rettangolare        Trasforma il vettore interno di nuovo in una
scelta tra 50.000 parole.

Stavi pensando alla struttura dei pesi del modello o alla matrice di
attenzione che si crea quando inserisci un prompt?

******* quanto spazio occupano le matrici di un LLM?

Lo spazio occupato dalle matrici di un LLM (ovvero il suo peso su disco
o nella VRAM della scheda video) dipende quasi interamente dal numero di
parametri e dal formato di quantizzazione utilizzato.

Ecco come si calcola lo spazio per un modello moderno:
1. La formula base

Ogni parametro del modello è un numero memorizzato in una matrice. Lo
spazio totale è:
Spazio=Numero di Parametri×Dimensione del tipo di dato
2. Tabella dei formati (Quanto pesa un singolo parametro?)

A seconda di come viene "compresso" il modello, lo spazio cambia
drasticamente:
Formato        Bit per parametro        Byte per parametro        Spazio per un modello da 7B
(es. Llama 3)
FP32 (Full Precision)        32 bit        4 byte        ~28 GB
BF16 / FP16 (Standard)        16 bit        2 byte        ~14 GB
INT8 (Quantizzato)        8 bit        1 byte        ~7 GB
4-bit (Ottimizzato)        4 bit        0,5 byte        ~3,5 GB
3. Esempi reali di dimensioni delle matrici

Per capire l'ordine di grandezza, prendiamo i modelli più famosi
configurati in 4-bit (lo standard per farli girare su PC domestici):

     Llama 3 (8B): Circa 5 GB. Sta comodamente in una scheda video
economica (RTX 3060/4060).

     Llama 3 (70B): Circa 40 GB. Richiede hardware professionale o due
schede video di fascia alta.

     GPT-4: Non conosciamo il numero esatto di parametri, ma le stime
parlano di circa 1.8 trilioni di parametri. Se fosse vero, in precisione
standard occuperebbe circa 3.500 GB (3,5 Terabyte) di memoria video.

4. Perché le matrici occupano così tanto?

Non è solo la "quantità" di numeri, ma come sono organizzati. Un LLM non
è un file statico che leggi dal disco; per funzionare, tutte le sue
matrici devono essere caricate contemporaneamente nella RAM o VRAM.

Quando scrivi un prompt, i dati passano attraverso ogni singola riga e
colonna di quelle matrici. Se il modello ha 70 miliardi di parametri, il
computer deve fare miliardi di calcoli matematici (moltiplicazioni tra
matrici) solo per generare la prima parola della risposta.
5. Oltre ai pesi: il "KV Cache"

Oltre allo spazio delle matrici fisse, un LLM occupa spazio extra mentre
"pensa".
Si chiama KV Cache: è una memoria temporanea che cresce man mano che la
conversazione diventa lunga. In contesti molto ampi (migliaia di
parole), questa memoria può occupare diversi Gigabyte aggiuntivi, oltre
al peso base del modello.

A quale modello specifico stavi pensando? Se hai un numero di parametri
in mente, posso calcolarti l'occupazione precisa per ogni tipo di scheda
video.


Messaggi recenti in questo thread
 
-# IA in locale? son 27-Apr-2026 23:19:53
.-# Re: IA in locale? Bingo3331 28-Apr-2026 15:19:44
.|\# Re: IA in locale? ArchiPit 28-Apr-2026 20:02:07
.-# Re: IA in locale? MarioCCCP 29-Apr-2026 20:25:26
..-# Re: IA in locale? son 30-Apr-2026 13:41:37
...-# Re: IA in locale? MarioCCCP 30-Apr-2026 22:48:33
...|-# Re: IA in locale? ArchiPit 01-May-2026 11:48:18
...|.-# Re: IA in locale? MarioCCCP 01-May-2026 15:12:37
...|..-# Re: IA in locale? ArchiPit 02-May-2026 19:58:17
...|...\# Re: IA in locale? MarioCCCP 02-May-2026 20:13:40
...-# Re: IA in locale? VITRIOL 01-May-2026 14:25:17
....-# Re: IA in locale? son 01-May-2026 23:29:38
.....|# Re: IA in locale? (Messaggio attuale) son 01-May-2026 23:33:39
.....-# Re: IA in locale? VITRIOL 02-May-2026 12:00:15
......-# Re: IA in locale? ArchiPit 02-May-2026 20:05:15
.......-# Re: IA in locale? MarioCCCP 02-May-2026 20:18:16
........\# Re: IA in locale? ArchiPit 03-May-2026 13:06:15


pagina creata in 67 millisecondi.