Header

RINFORZI E PUNIZIONI

 

Nella pratica dell'addestramento, si usano rinforzi e punizioni.

  • i rinforzi servono per incentivare un comportamento corretto o desiderato
  • le punizioni servono per disincentivare un comportamento errato o indesiderato

 

 

+ ( positivo, aggiungo )

- ( negativo, tolgo )

R ( rinforzo )

R+ aggiungo qualcosa di bello

ex: do il boccone di cibo, lancio la pallina, dico bravo!! (il "bravo" è un esempio di rinforzo sociale cioè rinforzo  secondario )

R- tolgo qualcosa di fastidioso
ex: applico una leggera tensione al guinzaglio → il cane si siede → tolgo la tensione al gunzaglio

ex2: il cane viene trattenuto mentre io scappo, il cane viene lasciato venire da me ( tolgo lo stress )

P ( punizione )

P+ aggiungo qualcosa di negativo ( strattone di guinzaglio , urlo)

P- tolgo qualcosa di bello
ex: il cucciolino mi salta addosso per prender il cibo che ho nella mano, io alzo la mano

 

Tutti i comportamenti possono essere modificati rinforzandoli o punendoli.

Se rinforzo un comportamento, creo i presupposti per cui un cane a pari condizioni lo riproponga con più probabilità.

R+

Ad una azione del cane associo uno stimolo piacevole.
( il cane capisce che ha compiuto una azione premiante )
R+ può essere

  • Continuo: ad ogni azione corrisponde un rinforzo
    Pro: il cane dopo poco inizia ad avere il condizionamento
    Contro: quando manca il rinforzo perde il condizionamento
    impara in fretta, perde in fretta
  • Intermittente: non premio sempre
    Pro: il cane tende a ripetere l'azione all'infinito perchè spera sempre nel rinforzo ( questo è il meccanismo alla base delle ludopatie: la possibilità di vincere spinge il malato a ripetere l'azione )
    R+ intermittente può essere
    • a rapporto fisso ( ogni tot. azioni corrette do un premio )

    • a rapporto variabile ( a caso )

    • progressivo ( vado calando )

 

R-

ad una azione del cane si sospende uno stimolo spiacevole

R+ ed R- sono due meccanismi grazie ai quali un comportamento si motiva

 

 

P è un processo usato per demotivare un comportamento

P+

aggiunta di uno stimolo spiacevole in presenza di un comportamento errato

P-

scomparsa di uno stimolo piacevole in presenza di un comportamento errato ( costo della risposta )

 

Note su P ed R

P- è molto più efficace di P+

R- è molto più incentivante di R+

R- ha una efficacia permanente in quanto il cane compie una azione volontaria per togliere il fastidio, quindi coinvolge la muscolatura striata ( Skinner ). L'atteggiamento del cane è propositivo, motiva un comportamento.

E buona norma prima usare R+ perchè il cane associ al comportamento che è una cosa bella, poi si usa R- ( se il cane non propone, non ottiene il rinforzo )

P+ ha una efficacia temporanea e sospende il comportamento

P+ demotiva un comportamento, ma non insegna quello giusto, quello che deve succedere dopo è R- cioè il cane cerca un comportamento corretto per togliere un fastidio.

Perchè a P+ deve seguire R-?
Perchè se dopo P+ do un rinforzo positivo c'è il rischio che il cane cerchi di ripetere il gesto per ottenere poi R+ ( fissa la sequenza )
ex: il cane mangia la ciabatta, lo correggo e quando la lascia gli do un boccone, c'è il rischio che P+ sia meno sgradevole dell' emozione per R+ e quindi il cane impari a mangiare la ciabatta per avere R+
mangio la ciabatta → prendo una correzione → lascio la ciabatta → ottengo il boccone
quello che conta quindi è l'emozione del cane.


Nota: se devo correggere ( P+ ) , sto già facendo i conti sul come limitare i danni, se invece gestisco l'iniziativa, non serve correggere. Se gestisco l'iniziativa, anche la scala gerarchica e la collaboratività si sitemano.
Nota 2: se uso P+ devo  bloccare l'azione e creare una emozione diversa, altrimenti non serve.
In poche parole il cane strattonato non sempre sposta il fuoco ed a volte associa lo strattone alla emozione che sta vivendo in quel momento, quindi alla fine lo strattone rafforza l'emozione.
Un classico esempio è il cane che vuole partire su di un altro cane e viene strattonato via mentre lo sta facendo. A forza di ripetere la sequenza "cane che punta - strattone" si crea un coondizionamento classico ed il cane quando avvertirà uno strattone del guinzaglio entrerà nello stato d'animo che ha quando punta, creando la medesima situazione anche in casi in cui sarebbe stato tranquillo


il cane quando compie una azione ha una motivazione, la correzione deve spostare il fuoco dalla motivazione.
Se do troppo peso alla punizione rispetto al rinforzo, sto sbagliando, perchè devo spostare le emozioni ed il fuoco dalla motivazione.