Home
Strumenti di misura
Misurare l’outcome

Misurare l’outcome

metro

Misurare l'outcome in fisioterapia

Scale di misura e questionari

Lo sviluppo di misure efficaci è diventata una questione rilevante in ambito riabilitativo e ha contribuito ad una migliore comprensione di come i risultati siano legati a elementi specifici di trattamento. La valutazione funzionale e l’analisi dell’outcome richiedono un processo di misurazione che prevede l’assegnazione di valori numerici o categorie a variabili “latenti” (in quanto si manifestano attraverso vari comportamenti nei diversi momenti: indipendenza funzionale, umore, comunicazione, partecipazione sociale, ecc.) (Franchignoni 2008).
Va inoltre ricordato che la rilevanza degli outcome può essere giudicata sotto differenti prospettive (ad esempio del soggetto disabile o della società, del ricercatore o del pubblico amministratore) tra le quali quella del paziente deve sempre risultare centrale, destinate a fornire diverse scale di valori in relazione a un certo risultato. In pratica, quello che a volte si desidererebbe misurare e analizzare è un fenomeno complesso, i cui fattori causali non possono essere colti da un unico strumento di valutazione. Spesso sarebbe invece più opportuno analizzare differenti outcome ciascuno con lo strumento di misura più appropriato.
Le più comuni modalità di raccolta di queste variabili prevedono l’uso di scale di valutazione o questionari. Nelle scale di valutazione un esaminatore osserva e assegna punteggi a un determinato parametro sulla base del proprio giudizio, con minimo coinvolgimento del paziente. I questionari raccolgono invece direttamente il punto di vista del paziente, il quale riferisce l’esperienza di fenomeni soggettivi (dolore, fatica ecc.) o proprie valutazioni, anche in rapporto a prospettive/aspettative personali (ad esempio in merito a indici di soddisfazione).

A cosa servono?

La valutazione dell’outcome rappresenta il punto di partenza per permettere al clinico di:
identificare e caratterizzare segni e sintomi, limitazioni strutturali e funzionali conseguenti ad un quadro clinico;
pianificare il programma terapeutico, stabilendo obiettivi riabilitativi realistici;
monitorare nel tempo i cambiamenti, anche al fine di verificare la validità dei trattamenti utilizzati e formulare prognosi attendibili;
aumentare il numero e il livello qualitativo degli interventi eseguiti, a parità di risorse impiegate.

Come sono strutturati?

Il riconoscimento del livello di misurazione che si sta effettuando è assolutamente necessario per comprendere quale sia il grado di informazioni ottenibile dalla misurazione in corso. Sostanzialmente, i dati prodotti dai processi di misurazione possono essere raggruppati in quattro categorie o livelli: nominale, ordinale, intervallare e a rapporto (Portney, 2000; Domholdt, 2005). Le prime due categorie sono definibili come “discrete” (dove la quantità compresa tra due intervalli non è costante), le altre due come “continue” (ovvero dotate di valori in grado di variare con gradualità conosciuta).

Categorie “discrete”

  • Livello nominale: descrive le relazioni di uguaglianza e diversità, come ad esempio per la razza, il sesso, la nazionalità o la diagnosi clinica, fornendo “etichette di identificazione” senza definire ordini gerarchici di importanza o priorità (non si tratta di una vera e propria misurazione). L’unica operazione matematica eseguibile è il conteggio numerico degli appartenenti a ciascuna categoria.
  • Livello ordinale: in cui la variabile è ordinata secondo un rango progressivo e classificata con un criterio maggiore-minore. I dati sono pertanto inseribili all’interno di categorie adiacenti, senza che siano noti gli intervalli compresi tra le stesse (ad esempio: nessuno, minimo, moderato, grave; buono, discreto, scarso e così via). Il livello ordinale non consente dunque una quantificazione della variabile in oggetto (non è possibile affermare che la voce con punteggio 2 corrisponda al doppio della voce con punteggio 1), ma solo una definizione di una posizione relativa rispetto a una distribuzione.

Categorie “continue”

  • Livello intervallare: una scala a intervallo presenta le caratteristiche di una scala ordinale e in più dimostra di possedere distanze conosciute e uguali fra le unità di misura. Esempi di misure intervallari sono l’articolarità misurata in gradi angolari, la temperatura, il tempo. Una scala intervallare permette di effettuare operazioni aritmetiche (addizioni/sottrazioni, calcolo della media) ma non rapporti in quanto lo zero, corrispondente all’assenza della quantità in oggetto, non è assoluto, bensì un valore di riferimento scelto arbitrariamente.
  • Livello a rapporto: oltre alle caratteristiche delle scale a intervallo, in questo caso vi è uno zero non arbitrario che rappresenta la totale assenza della quantità esaminata. A partire da questo tipo di scale è quindi possibile compiere tutte le operazioni aritmetiche e le analisi statistiche, ottenendo il massimo livello di informazione dai dati. Esempi sono la lunghezza, la forza, la velocità.

L’utilizzo di scale o questionari ordinali (i più comuni) non porta di fatto a vere e proprie misurazioni e limita le inferenze logiche che possono essere fatte, in particolare quelle relative ai progressi ottenuti in seguito al trattamento.
Per superare questa limitazione si può far ricorso a procedimenti statistici molto rigorosi, quali l’analisi di Rasch (Wright, 1982; Tesio, 2003; Bond, 2001). Si tratta di un modello statistico basato sulla “item-response theory”: in parole povere se la scala ordinale misura una sola variabile latente, allora i soggetti più abili hanno maggiori probabilità di ottenere migliori punteggi negli item più difficili rispetto agli altri. Il modello trasforma i punteggi grezzi ordinali di ciascun individuo in vere misure intervallari espresse in logits (logaritmo naturale), che possono essere presentate insieme alla stima dell’errore standard di misurazione (Tesio, 2003).
L’analisi di Rasch consente una dettagliata validazione dello strumento di misura, identificando item scritti in maniera scadente o migliorabile, oppure non omogenei con il costrutto di interesse. Possono inoltre essere evidenziate persone con punteggi anomali, dovuti a specifiche incapacità settoriali, risposte non corrette, errori di compilazione o trascrizione, e così via (Bond, 2001).

Quali sono i criteri di selezione?

La scelta tra misure di outcome concorrenti si basa sulle proprietà psicometriche e pratiche che ciascuna ha dimostrato di possedere. Si tratta di requisiti psicometrici (quali affidabilità, validità e responsività) e attributi tecnici e pratici (appropriatezza, precisione, interpretabilità, accettabilità e fattibilità).

Requisiti psicometrici

La presenza di adeguati livelli di affidabilità e validità è sufficiente per scopi discriminativi (differenze tra soggetti o gruppi) e predittivi (classificazione dei soggetti in classi predefinite a fini prognostici), mentre per scopi valutativi (ovvero per rilevare cambiamenti nel tempo entro soggetti, come nel caso di analisi di efficacia di interventi terapeutici) è necessario anche un buon livello di responsività.

L’affidabilità è il grado con cui una misurazione è libera da errore e quindi il punteggio osservato si avvicina a quello “vero”.
Si riferisce alla capacità del sistema di misura di fornire risultati costanti, anche se effettuata in tempi e da operatori diversi, a patto ovviamente che la grandezza in esame non abbia subito variazioni. La valutazione dell’affidabilità comprende due aspetti: la consistenza interna (o omogeneità) e la riproducibilità (o stabilità).
Consistenza interna: rappresenta il grado con cui le voci di una scala misurano una stessa caratteristica. Questa proprietà viene stimata in vari modi: i principali sono il coefficiente alfa di Cronbach e la item-total correlation.
Riproducibilità: valuta il grado con cui uno strumento fornisce gli stessi risultati in somministrazioni ripetute, a patto che non siano intercorsi reali cambiamenti della variabile in esame. Si possono distinguere differenti tipologie:

  1. test-retest, che valuta la stabilità di una misurazione ottenuta senza il coinvolgimento di valutatori esterni, ad esempio in un questionario auto-somministrato;
  2. intra-operatore e inter-operatori, che valutano la stabilità dei dati registrati rispettivamente da un solo osservatore in tempi diversi o da due o più osservatori che valutano separatamente la stessa variabile;
  3. alternate forms reliability, ovvero quella tra differenti forme di somministrazione di uno strumento (ad esempio intervista diretta, test con carta e penna, questionario telefonico, ecc.).

La validità è il grado di accuratezza con cui il test misura effettivamente ciò che intende misurare.
Si riconoscono tre tipologie principali di validità:

  1. di contenuto: rappresenta il grado con cui il contenuto degli items copre tutti i domini e gli aspetti effettivamente significativi dell’ambito che lo strumento intende misurare. Solitamente viene giudicata ricorrendo all’opinione di esperti;
  2. di criterio o concorrente: si riferisce alla capacità con cui uno strumento predice i risultati ottenuti da un altro che misura lo stesso concetto, somministrato contemporaneamente (concurrent validity) o in tempo successivo (predictive validity). E’ valutata attraverso il calcolo di un coefficiente di correlazione o dall’analisi di sensitività e specificità;
  3. di costrutto: valuta quanto uno strumento di misura si inquadra in un costrutto teorico precedentemente definito e non direttamente osservabile (quale ad esempio la forza, l’indipendenza funzionale, il dolore, la qualità di vita ecc.). Il processo di validazione non è mai propriamente concluso, in quanto si possono ricercare, in modo sempre più vasto e preciso, fenomeni di convergenza o divergenza dello strumento in esame con altre variabili ritenute rappresentative di costrutti rispettivamente simili o differenti.

La responsività (responsiveness) è definita come l’abilità di uno strumento di identificare i cambiamenti significativi dal punto di vista clinico della variabile misurata.
Questo attributo rappresenta una proprietà fondamentale per una misura di outcome, sia in campo clinico che di ricerca. La grandezza del cambiamento di un punteggio che va considerata come clinicamente importante (minimal clinically important difference) dovrebbe essere specificata a priori in ogni studio ed essere conosciuta dal clinico. Va ricordato tuttavia che essa può variare in funzione di diversi fattori (ad esempio dal tipo, dalla gravità o dalla durata della patologia) e non rappresenta quindi un valore assoluto attribuibile allo strumento di per sé. Inoltre, le metodologie utilizzate per definire la responsività mancano ancora di consenso univoco e i risultati che ne derivano devono essere interpretati con cautela per la possibile presenza di molteplici fonti d’errore.
Il concetto di responsività differisce da quello (a volte erroneamente usato come sinonimo) di sensibilità al cambiamento (sensitivity to change) che rappresenta l’abilità di uno strumento di misurare cambiamenti in uno stato (tramite indici quali effect size, standardized response mean ecc.) indipendentemente dal fatto che essi siano o meno clinicamente significativi (Franchignoni, 2006).

Attributi tecnici e pratici

L'appropriatezza: rappresenta il grado con cui lo strumento risponde alle necessità cliniche o scientifiche.
Le doti di affidabilità e validità possedute da ciascuno strumento non valgono in senso assoluto, ma relativamente alla sua applicazione all’interno di un determinato contesto. Pertanto, è sempre opportuno analizzare le voci della scala o del questionario per giudicare se il suo costrutto permette di misurare esattamente ciò che si intende misurare, oppure affidarsi ad una revisione della letteratura per analizzare in che misura siano già state verificate le proprietà psicometriche dello strumento nelle specifiche condizioni di interesse.

La precisione: si riferisce all’accuratezza con cui lo strumento è in grado di cogliere reali differenze.
Nelle misurazioni di tipo “discreto” questa proprietà è legata a tipo e numero di categorie di risposta (risposte dicotomiche, scale tipo Likert, scale visive analogiche, ecc.), ma anche al rapporto tra la gamma di difficoltà analizzata dalle varie voci e la vera distribuzione di ciò che viene misurato (rilevabile tramite analisi di scalabilità, ordine gerarchico e distribuzione delle voci in base alla loro relativa difficoltà, fornite dall’analisi di Guttman o di Rasch). Inoltre, gli effetti “soffitto” e “pavimento” - caratterizzati da >20% di soggetti nel campione analizzato con punteggi rispettivamente massimi o minimi - riflettono una limitata precisione dello strumento nel discriminare tra soggetti e valutarne le variazioni nel tempo.

L’interpretabilità è la possibilità di essere compreso con relativa facilità da tutti coloro che ne vengono in contatto professionalmente, sia di essere riutilizzabile da qualunque operatore con caratteristiche e addestramento adeguati.
Strumenti con problemi di interpretabilità o comunque troppo complicati tendono a produrre una maggiore variabilità nelle risposte, con conseguente riduzione dei valori di affidabilità della misura.

L’accettabilità da parte dei pazienti viene giudicata attraverso parametri diretti e indiretti, quali ad esempio l’intervista dell’interessato, la percentuale di risposta alle domande o il tempo di compilazione.

La fattibilità si riferisce alla semplicità nella gestione complessiva dei dati, cioè analizza il carico tecnico-amministrativo e, più in generale, i costi globali necessari per somministrare lo strumento. Tra le numerose variabili da considerare vi sono anche i tempi necessari per addestrare il personale a una corretta analisi dei parametri, per spiegare al paziente le norme per la compilazione o per raccogliere ed elaborare i dati (si pensi a questionari distribuiti per posta o a complesse procedure di calcolo dei punteggi finali).
Il fisioterapista che si accinge a utilizzare uno strumento di misura deve orientare la sua scelta non solo in base alla presenza delle caratteristiche psicometriche necessarie allo specifico obiettivo e contesto (preferendo strumenti la cui applicazione sia già stata collaudata in condizioni similari a quelle di interesse), ma anche ponendo attenzione ad aspetti di natura pratico-applicativa.

Il problema della lingua: processo di adattamento culturale di uno strumento.

In Italia come in numerose altre nazioni l’applicazione della maggior parte degli strumenti di misura
più affermati richiede – essendo essi stati sviluppati in paesi di lingua inglese – un accurato adattamento transculturale che garantisca la massima equivalenza semantica, idiomatica, concettuale e pratica, tra l’originale e la nuova versione (Franchignoni, 2003). Tale processo è complesso e prevede le seguenti fasi:

  • produzione di alcune traduzioni indipendenti della scala, possibilmente ognuna eseguita da un piccolo gruppo di soggetti che traducono nella loro madre lingua, solo in parte a conoscenza degli obiettivi e dei concetti connessi con la scala in oggetto;
    traduzione inversa della scala nella lingua di origine (back-translation), fatta da altri operatori che traducono nella loro madre lingua, non a conoscenza degli obiettivi e dei concetti connessi con il materiale da tradurre;
  • definizione della versione finale da parte di un comitato multidisciplinare di esperti, che confronta le precedenti traduzioni (evidenziando errori e incoerenze), applica tecniche strutturate per risolvere discrepanze e dubbi, valuta l’opportunità di modificare o eliminare voci irrilevanti, inadeguate o ambigue e di generare le sostituzioni che meglio si adattano alla situazione culturale di riferimento, utilizzando un linguaggio semplice e ben comprensibile;
  • un accurato studio pilota su un campione rappresentativo di soggetti, quale verifica sul campo (tramite intervista mirata) di eventuali residue problematiche di tipo linguistico, stilistico e culturale nella popolazione oggetto di uso clinico dello strumento (Hagell, 2003).

Gli strumenti tradotti e validati in italiano, in continuo aumento, sono raccolti e classificati in questo sito (link). Per alcuni di essi, scelti in base a rigidi criteri di robustezza clinimetrica e diffusione, sarà presto disponibile anche una scheda di approfondimento che ne illustrerà le caratteristiche, gli ambiti di applicazione e le modalità di interpretazione.

Per concludere

Molti progressi in questo settore sono relativamente recenti e vi è ancora la necessità di acquisire conoscenza circa le complesse relazioni tra interventi terapeutici, variabili cliniche e di contesto da una parte, e outcome del paziente dall’altra. Dunque, nonostante il continuo e sensibile progresso, la consapevole applicazione delle misure di outcome a procedure di economia sanitaria e di miglioramento di qualità delle decisioni cliniche individuali richiede ulteriori esperienze scientifiche (Wade, 2003).
Va infine ricordato che sussistono ancora numerosi limiti insiti nelle attuali metodiche di analisi dell’outcome, che richiedono estrema cautela soprattutto nell’interpretazione di punteggi “grezzi” tratti da scale di valutazione ordinali. Al fine di limitare i problemi tecnici di tipo psicometrico è auspicabile che siano utilizzati in modo crescente modelli statistici (come l’analisi di Rasch), che ricavino le reali caratteristiche metriche di una scala, in particolare l’unidimensionalità, la linearità dei punteggi e il grado di “difficoltà” degli item (Wright, 1982; Bond, 2001; Tesio, 2003).

Bibliografia essenziale

  • Bond TG, Fox CM. Applying the Rasch model: fundamental measurement in the human sciences. Mahwah, NJ: Lawrence Erlbaum Associates, 2001.
  • Domholdt E. Rehabilitation research - Principles and applications. St. Louis: Elsevier Saunders, 2005.
  • Franchignoni F, Bazzini G. La valutazione dell’outcome in Medicina Fisica e Riabilitativa. In: Trattato di Medicina Fisica e Riabilitazione-Vol.1 (a cura di N. Valobra) - UTET Editore, Torino 2008, cap 27.
  • Franchignoni F, Michail X. Selecting an outcome measure in Rehabilitation Medicine. Eura Medicophys 2003;39:67-8.
  • Franchignoni F, Ring H. Measuring change in rehabilitation medicine. Eura Medicophys 2006;42:1-3.
  • Hagell P, McKenna SP. International use of health status questionnaires in Parkinson’s disease: translation is not enough. Parkinsonism Relat Disord 2003;10:89-92.
  • Portney LG, Watkins MP. Foundations of clinical research. Applications to practice. 2nd ed. New Jersey: Prentice Hall Health, 2000.
  • Tesio L. Measuring behaviours and perceptions: Rasch analysis as a tool for rehabilitation. J Rehabil Med 2003;35:105-15.
  • Wade DT. Outcome measures for clinical rehabilitation trials: impairment, function, quality of life, or value? Am J Phys Med Rehabil. 2003;82(10 Suppl):S26-31.
  • Wright BD, Masters GN. Rating scale analysis. Chicago, IL: MESA Press, 1982.

“Soltanto quando dimostrano di essere affidabili e valide, le misurazioni contengono informazioni, mentre differentemente sono destinate a fornire solo numeri o categorie che inducono a una falsa impressione di credibilità”. Rothstein (1985)