On 30/05/26 23:35, Bingo3331 wrote:
> On 30/05/26 23:29, Bingo3331 wrote:
>> On 30/05/26 11:24, VITRIOL wrote:
>>>
>>> Immagino che, se tutto funziona correttamente e non รจ
>>> scontato, si possano vedere come le leggi della robotica
>>> di Asimov. Tipo: devi obbedire alle istruzioni
>>> dell'utente a meno che non contrastino col system prompt.
>>>
>> Non credo... perche' diversamente con un prompt di sistema
>> "pesante" come
>> quello che ho postato, non potresti passargli nessuna
>> personalizzazione sul
>> suo comportamento con te, se ci fai caso e' fortemente
>> codificata la
>> sicofanteria...per esempio...invece,come sappiamo il
>> modello puo' diventare
>> anche molto critico se l'utente lo configura per
>> esserlo...A me Chatgpt per
>> esempio, una volta personalizzato non mi da' assolutamente
>> ragione se "sa"
>> che non ce l'ho, anzi mette i puntini sulle "i"... perche'
>> interpreta di
>> fatto il "mentore" e sa che deve dare un parere obiettivo
>> e professionale e
>> non essere accondiscendente...
>> Stessa cosa Gemini gli ho dato le stesse
>> personalizzazioni...anche se e'
>> estremamente piu' "cerimonioso" tuttavia se sbaglio me lo
>> fa notare e mi
>> spiega pure il perche'...
>>
> Da prove empiriche sappiamo cmq che l'utente non puo'
> chiedere al modello di
> fare cose dannose, quindi deve esistere una ulteriore
> gerarchia che e' data
> in fase di addestramento dal red team... Quindi
> l'addestramento prevale su
> tutto...e quindi quando system prompt ed addestramento
> coincidono
> prevalgono le impostazioni di default ... chiaramente e'
> facilmente verificabile basta fare dei test...
> E se si conosce il system prompt, lo si puo' verificare
> subito...chi prevale
> su chi e cosa prevale su cosa...
>
non stiamo trascurando il POST-processing ? Le regole filtro
(ed eventuale reprompt rimodulato) potrebbero essere le
garanzie per la casa mamma e/o superiori ....
--
1) Resistere, resistere, resistere.
2) Se tutti pagano le tasse, le tasse le pagano tutti
MarioCCCP