immàgine, elaborazióne d'-
IndiceDefinizione
Insieme di tecniche elettroniche e informatiche che consentono di modificare, migliorare o analizzare immagini fisse o in movimento, trasmesse o memorizzate in forma digitale. I progressi della tecnologia digitale e lo sviluppo di processori elettronici di elevate prestazioni hanno permesso lo sviluppo di una serie di tecniche mediante le quali è possibile elaborare immagini di vario tipo e di varia complessità.
L'immagine digitale
Dal punto di vista digitale, un'immagine è costituita da una serie di punti (pixels) disposti sotto forma di tabella (in termini tecnici matrice). A seconda della grandezza dell'immagine e del grado di definizione, un'immagine può essere costituita da diverse migliaia fino a molti milioni di pixels. Ciascun pixel contiene vari tipi di informazioni, a seconda che si tratti di immagini in bianco e nero o a colori: nel caso del bianco e nero, l'informazione consiste nello stabilire per ciascun pixel il grado di luminosità del punto considerato, denominato "livello di grigio"; essendo tale informazione espressa in forma binaria, se, per esempio, a ciascun pixel sono associati 8 bit di informazione, si potranno rappresentare 28 = 256 toni di grigio. Per le immagini a colori, l'informazione cromatica viene scomposta in tre immagini nei colori primari rosso, verde e blu (in inglese Red, Green, Blue, RGB), ciascuna delle quali viene trattata come se fosse un'immagine monocromatica. Una scena in movimento corrisponde a una successione di immagini variabili, presentate in successione all'osservatore. A seconda dei casi, si può avere fino a qualche decina di immagini al secondo, nel qual caso si ha la sensazione di movimento continuo, ovvero poche immagini al secondo o addirittura un'immagine ogni due o tre secondi, nel qual caso il movimento è percepito in forma discontinua. Questi ultimi casi, definiti come "video lento", sono utilizzati quando la quantità di informazione da trattare deve essere, per motivi tecnici, limitata al massimo. In alcuni casi la sequenza di immagini video può essere presentata all'osservatore con velocità inferiore (o superiore) a quella reale, nel qual caso si ha la sensazione di rallentamento (o accelerazione) dell'azione visualizzata: il rallentamento viene utilizzato per analizzare fenomeni troppo veloci per essere correttamente percepiti (per esempio l'esatta sequenza dei movimenti delle ali battenti di un uccello in volo rapido), l'accelerazione per visualizzare eventi la cui lentezza maschera all'osservatore la dinamica complessiva del fenomeno (per esempio la crescita di una foglia). Le immagini trattate possono avere svariate origini e il trattamento può avere vari tipi di scopi: nel caso di immagini fisse, si possono citare il miglioramento o il recupero di immagini fotografiche degradate, la ricognizione aerea o da satellite di una zona di territorio e delle relative colture agricole (remote sensing), la rilevazione e l'indagine di immagini meteorologiche, la ricostruzione e l'elaborazione di immagini astronomiche, le applicazioni all'analisi e all'archiviazione di immagini biomediche (in particolare radiografiche), la analisi dei materiali e le indagini cristallografiche; nel caso di immagini in movimento, a parte il segnale televisivo, ha grande rilevanza il settore della sintesi delle immagini, mediante la quale sono simulati scenari o ambienti a scopo scientifico, di documentazione o di divertimento, come nei casi della grafica computerizzata, dei simulatori di ambienti operativi (per esempio simulatori di volo), delle animazioni nei videogiochi, ecc.
Elaborazione puntuale ed elaborazione spaziale
L'elaborazione consiste nell'alterazione delle caratteristiche di luminanza e crominanza associate ai vari pixels di un'immagine. Ciò può avvenire sia alterando il valore del singolo pixel indipendentemente da quelli circostanti (elaborazione di tipo puntuale), sia elaborando simultaneamente gruppi di pixels contigui (elaborazione di tipo spaziale). Elaborazione puntuale. Essa richiede l'uso di algoritmi non particolarmente impegnativi, ma può dar luogo a vari difetti, quali la comparsa di falsi contorni, poiché possono risultare evidenziate le discontinuità indotte dal rumore. Un algoritmo molto utilizzato nei sistemi di elaborazione puntuale consiste nella variazione della distribuzione globale dei toni di grigio (alterazione dell'istogramma): a seconda del tipo di immagine, infatti, la distribuzione dei toni di grigio può essere variamente differenziata, essendo privilegiati certi toni rispetto ad altri. L'istogramma è un grafico che per ciascun tono di grigio rappresenta il numero di volte in cui tale tono è presente nell'immagine stessa. L'istogramma dell'immagine può essere modificato, sostituendolo con altro istogramma fissato a priori; in tal modo la distribuzione dei toni di grigio risulta modificata, evidenziando spesso dettagliatamente particolari prima poco percepibili. Allo stesso tipo di elaborazione appartiene la tecnica dei falsi colori (o tecnica dello pseudocolore), consistente nell' aggiungere un'informazione di colore in modo artificiale, in corrispondenza a certi toni di grigio o a certe zone dell'istogramma: è possibile così rendere colorata un'immagine originariamente in bianco e nero o modificarne una a colori, mettendo in evidenza determinati oggetti o configurazioni (per esempio, nelle carte geografiche, certe zone di territorio e, in particolare, non solo certi tipi di colture agricole, ma anche il grado di sviluppo e maturazione delle stesse). Occorre anche considerare che, rispetto alle tre componenti cromatiche RGB di un'immagine, l'occhio umano è più sensibile al colore verde, che, pertanto, potrà essere rappresentato con più bit, sottratti al rosso e al blu. In contrapposizione alla tecnica dei falsi colori, le immagini si dicono in colore naturale, o in colore vero, quando il peso del singolo colore è ottenuto tramite telecamere o macchine fotografiche digitali. Elaborazione spaziale. Si basa su una vasta serie di algoritmi che possono essere distinti in vario modo, a seconda se l'elaborazione sia di tipo lineare ovvero non lineare (cioè se i nuovi valori dei pixels siano ottenuti come combinazioni lineari dei valori precedenti, o introducendo fattori di soglia o di saturazione), oppure se si voglia ricorrere o meno a tecniche di trasformazione di Fourier, analoghe a quelle utilizzate per l'elaborazione di segnali in campo acustico (segnali audio): la differenza sostanziale con i segnali audio consiste nel fatto che, mentre questi sono considerati funzioni del tempo, nel caso delle immagini i segnali bidimensionali sono considerati funzioni delle due coordinate spaziali, verticale e orizzontale. La trasformata di Fourier di un'immagine consiste nell'applicazione di un algoritmo bidimensionale, determinando in senso orizzontale e in senso verticale le distribuzioni delle variazioni e delle oscillazioni presenti sull'immagine stessa.
Tecniche di filtraggio
Molte tecniche di elaborazione di un'immagine vengono classificate come filtraggi e rientrano in due tipologie: quelle che tendono a diminuire le variazioni (di luminosità o di toni cromatici), rendendo più regolare l'immagine e meno accentuate le transizioni fra gli oggetti (attenuazione dei contorni), e quelle che, al contrario, tendono ad accentuare le variazioni, mettendo molto in evidenza le irregolarità e, in particolare, i bordi e i contorni degli oggetti (accentuazione dei contorni). Le prime si possono assimilare a filtraggi spaziali di tipo "passa basso" (che limitano le variazioni brusche), mentre le seconde a filtraggi di tipo "passa alto" (che favoriscono le variazioni brusche). Le tecniche di accentuazione possono permettere l'estrazione dei contorni dei vari oggetti presenti, così da ottenere una nuova immagine nella quale sono presenti solo i contorni e non le caratteristiche interne a ciascun oggetto. L'estrazione dei contorni, tecnica molto usata in varie applicazioni, permette, da un lato, una grande amplificazione del contrasto, dall'altro, la suddivisione dell'immagine in regioni omogenee, corrispondenti in molti casi ai singoli oggetti presenti sulla scena, che in tal modo possono essere identificati. L'operazione che deduce dall'immagine completa una serie di sottoimmagini corrispondenti agli oggetti presenti viene detta "segmentazione": mediante essa è possibile identificare gli oggetti presenti nell'immagine e tentare di attribuire loro un opportuno significato semantico; ciò si rivela utile anche per l'esame di più immagini successive di una scena in movimento, sulla base della considerazione che è molto più probabile che i singoli oggetti si muovano l'uno nei confronti dell'altro, rispetto al fatto che perdano la propria individualità. Inoltre l'individuazione di oggetti in un'immagine è spesso un passo preliminare in vista della loro classificazione nell'ambito di classi di oggetti preassegnati. Tale tipo di elaborazione consiste nell'identificazione della classe più probabile alla quale un certo oggetto può appartenere.
Recupero di immagini degradate
Un'importante applicazione dell'elaborazione di un'immagine è rappresentata dal recupero o il ripristino di immagini degradate a causa della presenza di rumore diffuso, rumore granulare, macchie, sfocamenti, o movimenti reciproci fra sensore e oggetto durante la ripresa (immagini mosse). Il recupero dell'immagine consiste nell'eliminazione o nell'attenuazione della causa che ha provocato la degradazione. Si procede innanzitutto individuando, sulla singola immagine, le cause che hanno portato alla sua degradazione; sulla base di tale conoscenza vengono fatte delle ipotesi, quindi si costruisce un modello che individua matematicamente le modalità con cui le cause della degradazione hanno potuto agire; si applica a questo punto un algoritmo (operatore matematico) che percorre un cammino inverso rispetto a quello che ha prodotto la degradazione (tecnicamente ciò viene indicato con il nome di "elaborazione inversa"). Vi possono essere due tipi di situazioni: quello in cui la degradazione ha provocato una limitata perdita di informazione rispetto allo scenario di origine, e quello in cui le perdite di informazione sono predominanti. Per esempio, un'immagine mossa, pur essendo a volte molto degradata, non presenta una sostanziale perdita di informazione rispetto allo scenario di origine, mentre il contrario avviene in presenza di una macchia che ha l'effetto di cancellare totalmente una parte dell'immagine. Il recupero molto spesso viene affrontato con algoritmi di stima e predizione, nel dominio delle coordinate spaziali o della trasformata di Fourier. Tecniche di recupero vengono applicate in genere al ripristino di vecchi film, procedendo fotogramma per fotogramma; in questi casi si può operare anche l'aggiunta del colore a pellicole in bianco e nero: da non confondersi con la tecnica del falso colore, l'aggiunta del colore viene effettuata individuando gli oggetti presenti sulla scena, ipotizzando per essi i colori e modulando le aggiunte cromatiche sulla base di un'analisi dei toni di grigio presenti sui vari oggetti identificati con la tecnica della segmentazione.
Elaborazione di immagini in movimento e stereoscopiche
Nel caso di immagini in movimento, costituite da sequenze di immagini in successione, alcuni tipi di elaborazione agiscono indipendentemente su ciascuna immagine (elaborazione spaziale), altri simultaneamente su quadri adiacenti (elaborazione spazio-temporale). In tal modo è possibile discriminare oggetti che appaiono fermi (e quindi mantengono pressappoco la stessa posizione in quadri successivi) rispetto a oggetti in movimento sulla scena. Opportuni filtri, detti "filtri di novità", rendono possibile evidenziare i soli oggetti in movimento, operando la cancellazione di tutti quelli fissi; il loro uso è estremamente utile in varie applicazioni, come per esempio nell'elaborazione di immagini radar, ove è di cruciale importanza il rilevamento di oggetti mobili. A volte una sequenza di immagini non si riferisce alla successioni di quadri in istanti consecutivi, ma a uno stesso scenario ripreso nello medesimo istante da più punti di vista. Il caso più semplice è quello delle immagini stereoscopiche, corrispondenti a coppie di immagini dello stesso ambiente riprese da due punti di vista opportunamente distanziati fra loro. Le informazioni che si possono dedurre da una coppia di immagini stereoscopiche permettono di valutare la distanza dei vari oggetti presenti sulla scena rispetto alla posizione dei due punti di osservazione. A tale scopo, sullo scenario vengono definiti i cosiddetti "piani di profondità" in base allo spostamento che i pixels appartenenti a uno stesso oggetto vengono ad assumere sulle due immagini della coppia stereoscopica: in questo modo, a partire da una coppia di immagini stereoscopiche, viene sintetizzata una nuova immagine (immagine di profondità) nella quale i vari piani di profondità posti a differente distanza sono evidenziati assegnando agli oggetti differenti istogrammi in bianco e nero. Così nell'immagine di profondità potranno apparire in tonalità più chiara gli oggetti vicini o contigui al punto di osservazione, in tonalità più scura quelli più lontani, permettendo di ricostruire un'ipotetica configurazione tridimensionale dello scenario di osservazione, così come è dedotto dai sensori ottici presenti. Queste tecniche sono largamente utilizzate per ottenere informazioni utili sulla navigazione sicura nell'ambito dello scenario, con importanti applicazioni nell'ambito della robotica.
Tecniche di compressione delle immagini e riduzione della ridondanza
Consentono di limitare il numero di bit necessari per rappresentare correttamente un'immagine e si distinguono in tecniche di compressione per immagini fisse e tecniche di compressione per immagini in movimento. Si indica come rapporto di compressione quello fra il numero di bit dell'immagine compressa rispetto al numero di bit dell'immagine originale. La necessità di tali tecniche deriva dal fatto che la quantità di informazione necessaria per rappresentare un'immagine in forma digitale è estremamente elevata, essendo pari al numero di pixels moltiplicato il numero di bit/pixel, moltiplicato ancora per il numero di colori (uguale a tre). Per le immagini in movimento il numero relativo ai bit per ogni immagine deve essere ancora moltiplicato per il numero di immagini al secondo desiderate. Il numero che si ottiene è così elevato da rendere impossibile qualsiasi tipo di trasmissione e memorizzazione di immagini in forma digitale. Al fine di rendere possibile la realizzazione dei sistemi di trasmissione di immagini digitali in movimento (televisione digitale) e la loro memorizzazione su appositi supporti (per esempio un DVD) è quindi assolutamente necessario procedere alla riduzione dei numero dei bit necessari per la rappresentazione dell'immagine. Gli algoritmi di elaborazione per ottenere tale scopo possono essere classificati in vario modo: a) tecniche di compressione spaziale, quando si agisce direttamente sui valori dei pixels; b) tecniche di compressione frequenziale, quando si agisce nell'ambito delle trasformate di Fourier; c) tecniche di compressione senza perdita di informazione, quando dal segnale compresso sono eliminate tutte le ridondanze interne, cioè tutte le informazioni in qualche modo ripetute; d) tecniche di compressione con perdita di informazione, quando oltre alle ridondanze sono eliminate parti del segnale utile; e) tecniche di compressione in tempo reale, quando l'algoritmo di elaborazione è sufficientemente veloce da seguire l'andamento delle immagini di interesse (come è necessario nella trasmissione televisiva); f) tecniche di compressione in tempo differito, quando l'elaborazione viene effettuata fuori linea (e cioè in un tempo maggiore di quello previsto per la fruizione della sequenza delle immagini). A ogni tecnica di compressione deve corrispondere una tecnica di decompressione che permetta di ricostruire le immagini originali. Quando la tecnica di compressione è del tipo con perdita di informazione, la tecnica di decompressione non potrà più fornire l'immagine originale, che risulterà definitivamente degradata. Ciò è ammissibile in alcune applicazioni, come il videotelefono o la videoconferenza, ove è accettabile una qualità di immagine non ottimale al fine di contenere la quantità di informazione da trasmettere. Tecniche del tipo a tempo differito sono applicabili quando la compressione viene effettuata per memorizzare archivi di immagini, o immagini di tipo particolare. In tal modo, per esempio, nel campo delle immagini astronomiche possono essere a volte usate tecniche che consentono rapporti di compressione anche di 1 a 100. Uno degli algoritmi di compressione più usati consiste nell'effettuare una stima del valore di ciascun pixel sulla base dei valori dei pixels circostanti (tecnica spaziale) o anche di pixels di quadri precedenti al quadro considerato (tecnica spazio-temporale). Trasmettendo la differenza fra il valore del pixel reale e il valore di quello stimato si ottiene un vantaggio notevole, poiché tale differenza può essere trasmessa o memorizzata con un numero di bit di gran lunga inferiore rispetto al numero di bit necessari per trasmettere il valore del pixel reale. In decompressione si effettua il passaggio inverso. La stima si ottiene con algoritmi detti di predizione lineare, i quali, in genere, sono di tipo adattativo, danno cioè luogo a rapporti di compressione variabile da immagine a immagine. I metodi di compressione e decompressione d'uso comune sono stati raggruppati in alcuni standard stabiliti per immagini fisse (come lo standard JPEG) o per immagini mobili (come lo standard MPEG). Poiché lo standard MPEG, comunemente usato nella televisione digitale e nella memorizzazione video su supporto ottico DVD, si riferisce a immagini video o a filmati, in presenza di colonna sonora tale standard associa alla codifica delle immagini in movimento anche quella del relativo audio.