Sistemul de vedere uman



Sistemul de vedere uman

In foarte multe domenii de aplicatii [29][53][54][55][56][104][180] este

prezenta o tendinta inevitabila, aceea de a folosi ca model sistemele biologice, in

special sistemele umane. Aplicatiile robotice si de vedere artificiala, prin natura lor,

sunt intr-o masura si mai mare afectate de aceasta tendinta. Despre avantajele unei

astfel de abordari nu este necesar sa insistam. Putem sa subliniem insa limitele



proiectelor bazate pe astfel de modele. O prima limitare pare mai degraba una de

ordin filozofic si este legata limitele autocunoasterii in general. Putem sa analizam

in detaliu o multitudine de procese fizice si chimice care au loc la nivelul diferitelor

sisteme de locomotie si perceptie umane. Problemele se complica in momentul in

care dorim sa ne folosim propriul creier pentru a afla cum folosim noi insine

informatiile disponibile pentru a lua deciziile necesare. Este o problema extrem de

complicata sa ne explicam cum reusim intr-un timp foarte scurt sa apreciem daca

ceea ce vedem este un scaun sau un fotoliu. Daca printr-un miracol am intra in

posesia "schemei" utilizate atunci ne-am lovi de o a doua limitare. Cu siguranta

respectiva "schema" nu se bazeaza pe folosirea informatiei numerice asa cum

suntem noi obligati sa facem ca utilizatori de calculatoare. Este instructiv sa

constientizam faptul ca incercam sa copiem abilitatile sistemelor biologice

bazandu-ne pe posibilitatea oferita de sitemele de calcul de a aduna si deplasa cifre

binare, 1 si 0.

Sistemul vedere uman are trei componente principale: senzorul (ochiul),

calea de transmisie (nervul optic) si unitatea de prelucrare (creierul). Principial

functionarea poate fi descrisa simplu. Lumina este focalizata cu ajutorul unei

lentile pe senzorul propriu-zis (retina). Printr-un proces bioelectrochimic se

genereaza semnal electric ca raspuns la stimulul luminos. Semnalul este trimis pe

nervul optic pana la creier unde se creaza forme neurologice pe care noi le

percepem ca imagini si le interpretam punandu-le in legatura cu lumea exterioara.

Lumina pe care o poate percepe ochiul uman ocupa o mica parte a spectrului

undelor electromagnetice (figura 2.1) si corespunde doar frecventelor cuprinse intre

aproximativ 400 nm si 800 nm. Lentila este formata din apa (65 %), grasimi (6%)

si proteine (intr-un procent mai mare decat oricare alt tesut). Ea este colorata usor

in galben si absoarbe sub 10 % din spectrul vizibil al luminii. Razele infrarosii si

cele ultraviolete sunt absorbite de proteiele din structura lentilei.

Din punct de vedere senzorial, la nivelul retinei, exista o ierarhizare

concretizata in specializarea elementelor individuale senzoriale. "Conurile" sunt

specializate in vederea diurna, sunt sensibile si diferentiate pe culori, ofera o foarte

mare rezolutie (sensibilitate la detalii) si sunt concentrate in zona centrala a retinei.

"Bastonasele" sunt specializate in vederea in penumbra, sunt sensibile la stralucire

nu la culoare, sunt distribuite pe toata retina, sunt utilizate in special pentru vederea

periferica si ofera o rezolutie mai redusa. "Bastonasele" (75 - 150 milioane) sunt

mult mai numeroase decat "conurile" (6 - 7 milioane), dar au conexiuni pe grupe

de senzori si nu individuale ca acestea din urma. Acest tip diferit de conectare este

o justificare a rezolutiilor diferite oferite de cele doua grupe de senzori.

In apropierea locului de conectare a nervului optic la retina exista o zona

lipsita de senzori, zona oarba. Creierul este capabil sa completeze cu informatie,

prin extrapolare, portiunea corespunzatoare din imagine astfel incat noi aflam

despre aceasta problema din carti si nu o sesizam direct. Modalitatea a fost

imprumutata la fabricarea senzorilor electronici cand pentru a nu arunca un senzor

care are milioane de celule individuale se completeaza informatia aferenta celor

catorva celule individuale defecte cu informatia memorata in celule aditionale de

memorie.

Zona cu cea mai mare sensibilitate de pe retina este zona centrala unde sunt

concentrate cele mai multe "conuri". Aceasta zona (fovea) are o forma aproximativ

circulara cu o raza mai mica de 1 mm (aproximativ 0,75 mm). Pentru a putea face o

comparatie cu senzorii electronici, o putem echivala cu o zona dreptunghiulara de

1,53 mm x 1,15 mm care pastreaza raportul de 4/3 intre dimensiuni.


Daca acceptam ca densitatea "conurilor" in aceasta zona este de aproximativ

150000 de elemente pe mm2, atunci obtinem un senzor echivalent de 265000 de

elemente. Daca luam in considerare un senzor comun CCD care are o rezolutie de

756 x 581 vom gasi un numar mai mare de celule individuale, distribuite si pe o

suprafata mai mare. Cum la nivelul tehnologic al anului 2001 exista senzori cu mai

multe milioane de celule individuale putem concluziona ca ochiul omenesc nu

depaseste acesti senzori nici ca numar absolut de celule nici ca densitate pe unitatea

de suprafata.

Distanta dintre centrul focal al lentilei si retina variaza intre 14 mm si 17

mm, dupa cum se focalizeza asupra unor obiecte mai apropiate sau mai departate

ceea ce conduce la deformarea lentilei [104][180][181]. Ca urmare un om de 1,80

m privit de la 10 m distanta va crea o imagine de aproximativ 2.5 mm (figura 2.2).


Sistemul vizual uman reuseste sa ofere o capacitate foarte mare de adaptare

relativ la limitele inferioara si superioara acceptabile pentru intensitatea luminii

incidente pe ochi (aceste limite se afla intr-un raport de 1010). Acest lucru este

justificat de caracteristica logaritmica a ochiului (stralucirea subiectiva este o

functie logaritmica de intensitatea luminii incidente pe ochi), dar trebuie facuta

precizarea ca sistemul are nevoie de un timp de adaptare la trecerea de la un nivel

de iluminare la un altul mult diferit. Sistemul vizual uman poate sesiza numai

aproximativ 20 de schimbari in stralucirea unei zone mici dintr-o imagine, iar

pentru intreaga imagine sunt necesare in jur de 100 de nivele de gri pentru ca

aceasta sa fie apreciata ca realista. Capacitatea sistemului vizual uman de a distinge

detalii (rezolutia spatiala) este limitata de marimea celelor individuale, a

"conurilor" si "bastonaselor". Este evident ca nu se pot sesiza detalii mai mici

decat dimensiunea unei astfel de celule. Obiectele mai mici pot genera o imagine

de aceeasi marime daca sunt privite de la o distanta mai mica. Rezolutia spatiala

depinde de conditiile de iluminare, creste cu nivelul stralucirii si este mai mare

pentru imaginile monocrome.

Rezolutia spatiala (care poate fi definita [104][180][181] si drept capacitatea

de a separa doi pixeli vecini dintr-o imagine) este un concept legat frecventa

spatiala. Daca privim o imagine formata din benzi verticale negre pe fond alb

(figura 2.3) atunci se pune problema cate astfel de schimbari de stralucire putem

sesiza. Este clar ca este important sa precizam si distanta de la care privim. Pentru

a elimina efectul distantei putem calcula aceasta frecventa relativ la 1 grad spatial

din campul de vedere (marimea pumnului privit de la o distanta egala cu lungimea

bratului intins este de aproximativ 1 grad spatial). In aceste conditii se poate

aprecia ca frecventa de taiere pentru sistemul vizual uman este in jur de 50 de ciclii

(un ciclu este o schimbare completa in semnal) pe grad.

Pentru aprecierea perceptiei imaginilor in miscare se defineste raspunsul

temporal al sistemului vizual uman care este capacitatea sistemului de a raspunde

la informatia vizuala primita ca functie de timp. Ca o masura a performantelor,

putem preciza ca pentru o imagine afisata pe un monitor sistemul vizual uman nu

poate percepe constient palpairi (flicker) daca frecventa de afisare a cadrelor este

mai mare de 60 Hz.

Daca, intre anumite limite, fiziologia si aprecierea performantelor sistemului

senzorial de vedere uman sunt accesibile, mai dificila se arata posibilitatea de

intelegere a modului cum aceasta informatie este prelucrata si utilizata de sistemul

de prelucrare, care are ca element central creierul uman. Pe baza informatiei

vizuale, care reprezinta mai mult de 80% din totalul intrarilor senzoriale, omul

reuseste, intr-o prima etapa, sa identifice si sa localizeze obiectele din mediul

inconjurator. Desigur, intelegerea scenelor privite este o operatie mult mai

complexa si o putem defini ca totalitatea operatiilor care mai pot fi facute dupa

simpla clasificare a obiectelor.

Putem remarca faptul ca sistemul de vedere este integrat in sistemul global

care este omul. In sprijinul acestei afirmatii putem face o observatie interesanta.

Pentru orice sistem de vedere este important sa poata localiza obiectele din spatiul

aplicatiei pe baza informatiei din imaginile achizitionate. Pentru vederea artificiala,

realizarea acestei corespondente intre coordonatele globale si coordonatele imagine

se bazeaza pe o etapa initiala care se numeste calibrarea camerelor de luat vederi.

Calibrarea camerelor produce o matrice de transformare a coordonatelor. Aceasta

matrice este valabila atata timp cat pozitia si orientarea camerelor sunt fixe in

raport cu anumite repere de referinta. Este evident ca in creierul omului astfel de

corespondente nu pot fi realizate matriceal! Totusi plasarea celor doi senzori, care

sunt ochii, intr-o pozitie relativ fixa in raport cu scheletul nostru, si deci si cu

sistemele noastre de locomotie si manipulare, este o conditie care sustine abilitatea

noastra de a localiza si manipula corect obiectele. Pentru configuratia fixa care este

proprie fiecarui individ, corespondenta imagine - mediu inconjurator este invatata

si permite o foarte buna viteza de reactie. Daca incercati sa manipulati obiecte pe

baza unor imagini dintr-o oglinda sau achizitionate cu o camera TV si afisate pe un

monitor, veti avea dificultati si performante modeste. O noua corespondenta

imagine - mediu inconjurator trebuie construita si aceasta sarcina necesita un timp

de adaptare. Acesta este motivul pentru care nu ne asteptam la performante

remarcabile de la un sistem de vedere plasat in varful unor antene care se

orienteaza permanent, ca in filmele SF! Nici melcul nu este un vitezist!

Pentru sistemul de vedere uman putem face o apreciere generala a

performantelor pe care acesta le ofera:

! Masurarea distantelor este facuta calitativ, rezultand mai degraba informatii

de tipul "mai aproape", "mai departe", "mai scurt" sau "mai lung" decat

dimensiuni exprimate in unitati de masura. Va puteti convinge incercand sa

apreciati dimensiunile obiectelor din jurul dumneavoastra, in centimetrii. In mod

normal veti avea aproximari de circa 10%. Nu avem in vedere iluziile optice care

pot fii induse prin diferite mici trucuri.

! Sesiziarea detaliiilor tridimensionale (relief) este foarte buna.

! Aprecierea directei (orientarea muchiilor) este buna si se face tot calitativ si

nu cantitaiv.

! Achizitia si prelucrarea imaginilor in miscare se face cu o viteza mai mare de

10 imagini intr-o secunda. Este o viteza apreciata ca timp real relativ la actiunile

(de exemplu deplasare, manipulare, supraveghere) pe care le poate intreprinde o

persoana.

! Sesizarea contururilor obiectelor se face cu foarte buna precizie.

! Rezolutia (sesizarea detaliilor) este foarte buna si este superioara rezolutiei

asteptate in raport cu numarul celulelor vizuale individuale.

! Culoarea este perceputa in banda de lungimi de unda 400 nm - 800 nm.