Sistemul de vedere uman
In foarte multe domenii de aplicatii [29][53][54][55][56][104][180] este
prezenta o tendinta inevitabila, aceea de a folosi ca model sistemele biologice, in
special sistemele umane. Aplicatiile robotice si de vedere artificiala, prin natura lor,
sunt intr-o masura si mai mare afectate de aceasta tendinta. Despre avantajele unei
astfel de abordari nu este necesar sa insistam. Putem sa subliniem insa limitele
proiectelor bazate pe astfel de modele. O prima limitare pare mai degraba una de
ordin filozofic si este legata limitele autocunoasterii in general. Putem sa analizam
in detaliu o multitudine de procese fizice si chimice care au loc la nivelul diferitelor
sisteme de locomotie si perceptie umane. Problemele se complica in momentul in
care dorim sa ne folosim propriul creier pentru a afla cum folosim noi insine
informatiile disponibile pentru a lua deciziile necesare. Este o problema extrem de
complicata sa ne explicam cum reusim intr-un timp foarte scurt sa apreciem daca
ceea ce vedem este un scaun sau un fotoliu. Daca printr-un miracol am intra in
posesia "schemei" utilizate atunci ne-am lovi de o a doua limitare. Cu siguranta
respectiva "schema" nu se bazeaza pe folosirea informatiei numerice asa cum
suntem noi obligati sa facem ca utilizatori de calculatoare. Este instructiv sa
constientizam faptul ca incercam sa copiem abilitatile sistemelor biologice
bazandu-ne pe posibilitatea oferita de sitemele de calcul de a aduna si deplasa cifre
binare, 1 si 0.
Sistemul vedere uman are trei componente principale: senzorul (ochiul),
calea de transmisie (nervul optic) si unitatea de prelucrare (creierul). Principial
functionarea poate fi descrisa simplu. Lumina este focalizata cu ajutorul unei
lentile pe senzorul propriu-zis (retina). Printr-un proces bioelectrochimic se
genereaza semnal electric ca raspuns la stimulul luminos. Semnalul este trimis pe
nervul optic pana la creier unde se creaza forme neurologice pe care noi le
percepem ca imagini si le interpretam punandu-le in legatura cu lumea exterioara.
Lumina pe care o poate percepe ochiul uman ocupa o mica parte a spectrului
undelor electromagnetice (figura 2.1) si corespunde doar frecventelor cuprinse intre
aproximativ 400 nm si 800 nm. Lentila este formata din apa (65 %), grasimi (6%)
si proteine (intr-un procent mai mare decat oricare alt tesut). Ea este colorata usor
in galben si absoarbe sub 10 % din spectrul vizibil al luminii. Razele infrarosii si
cele ultraviolete sunt absorbite de proteiele din structura lentilei.
Din punct de vedere senzorial, la nivelul retinei, exista o ierarhizare
concretizata in specializarea elementelor individuale senzoriale. "Conurile" sunt
specializate in vederea diurna, sunt sensibile si diferentiate pe culori, ofera o foarte
mare rezolutie (sensibilitate la detalii) si sunt concentrate in zona centrala a retinei.
"Bastonasele" sunt specializate in vederea in penumbra, sunt sensibile la stralucire
nu la culoare, sunt distribuite pe toata retina, sunt utilizate in special pentru vederea
periferica si ofera o rezolutie mai redusa. "Bastonasele" (75 - 150 milioane) sunt
mult mai numeroase decat "conurile" (6 - 7 milioane), dar au conexiuni pe grupe
de senzori si nu individuale ca acestea din urma. Acest tip diferit de conectare este
o justificare a rezolutiilor diferite oferite de cele doua grupe de senzori.
In apropierea locului de conectare a nervului optic la retina exista o zona
lipsita de senzori, zona oarba. Creierul este capabil sa completeze cu informatie,
prin extrapolare, portiunea corespunzatoare din imagine astfel incat noi aflam
despre aceasta problema din carti si nu o sesizam direct. Modalitatea a fost
imprumutata la fabricarea senzorilor electronici cand pentru a nu arunca un senzor
care are milioane de celule individuale se completeaza informatia aferenta celor
catorva celule individuale defecte cu informatia memorata in celule aditionale de
memorie.
Zona cu cea mai mare sensibilitate de pe retina este zona centrala unde sunt
concentrate cele mai multe "conuri". Aceasta zona (fovea) are o forma aproximativ
circulara cu o raza mai mica de 1 mm (aproximativ 0,75 mm). Pentru a putea face o
comparatie cu senzorii electronici, o putem echivala cu o zona dreptunghiulara de
1,53 mm x 1,15 mm care pastreaza raportul de 4/3 intre dimensiuni.
Daca acceptam ca densitatea "conurilor" in aceasta zona este de aproximativ
150000 de elemente pe mm2, atunci obtinem un senzor echivalent de 265000 de
elemente. Daca luam in considerare un senzor comun CCD care are o rezolutie de
756 x 581 vom gasi un numar mai mare de celule individuale, distribuite si pe o
suprafata mai mare. Cum la nivelul tehnologic al anului 2001 exista senzori cu mai
multe milioane de celule individuale putem concluziona ca ochiul omenesc nu
depaseste acesti senzori nici ca numar absolut de celule nici ca densitate pe unitatea
de suprafata.
Distanta dintre centrul focal al lentilei si retina variaza intre 14 mm si 17
mm, dupa cum se focalizeza asupra unor obiecte mai apropiate sau mai departate
ceea ce conduce la deformarea lentilei [104][180][181]. Ca urmare un om de 1,80
m privit de la 10 m distanta va crea o imagine de aproximativ 2.5 mm (figura 2.2).
Sistemul vizual uman reuseste sa ofere o capacitate foarte mare de adaptare
relativ la limitele inferioara si superioara acceptabile pentru intensitatea luminii
incidente pe ochi (aceste limite se afla intr-un raport de 1010). Acest lucru este
justificat de caracteristica logaritmica a ochiului (stralucirea subiectiva este o
functie logaritmica de intensitatea luminii incidente pe ochi), dar trebuie facuta
precizarea ca sistemul are nevoie de un timp de adaptare la trecerea de la un nivel
de iluminare la un altul mult diferit. Sistemul vizual uman poate sesiza numai
aproximativ 20 de schimbari in stralucirea unei zone mici dintr-o imagine, iar
pentru intreaga imagine sunt necesare in jur de 100 de nivele de gri pentru ca
aceasta sa fie apreciata ca realista. Capacitatea sistemului vizual uman de a distinge
detalii (rezolutia spatiala) este limitata de marimea celelor individuale, a
"conurilor" si "bastonaselor". Este evident ca nu se pot sesiza detalii mai mici
decat dimensiunea unei astfel de celule. Obiectele mai mici pot genera o imagine
de aceeasi marime daca sunt privite de la o distanta mai mica. Rezolutia spatiala
depinde de conditiile de iluminare, creste cu nivelul stralucirii si este mai mare
pentru imaginile monocrome.
Rezolutia spatiala (care poate fi definita [104][180][181] si drept capacitatea
de a separa doi pixeli vecini dintr-o imagine) este un concept legat frecventa
spatiala. Daca privim o imagine formata din benzi verticale negre pe fond alb
(figura 2.3) atunci se pune problema cate astfel de schimbari de stralucire putem
sesiza. Este clar ca este important sa precizam si distanta de la care privim. Pentru
a elimina efectul distantei putem calcula aceasta frecventa relativ la 1 grad spatial
din campul de vedere (marimea pumnului privit de la o distanta egala cu lungimea
bratului intins este de aproximativ 1 grad spatial). In aceste conditii se poate
aprecia ca frecventa de taiere pentru sistemul vizual uman este in jur de 50 de ciclii
(un ciclu este o schimbare completa in semnal) pe grad.
Pentru aprecierea perceptiei imaginilor in miscare se defineste raspunsul
temporal al sistemului vizual uman care este capacitatea sistemului de a raspunde
la informatia vizuala primita ca functie de timp. Ca o masura a performantelor,
putem preciza ca pentru o imagine afisata pe un monitor sistemul vizual uman nu
poate percepe constient palpairi (flicker) daca frecventa de afisare a cadrelor este
mai mare de 60 Hz.
Daca, intre anumite limite, fiziologia si aprecierea performantelor sistemului
senzorial de vedere uman sunt accesibile, mai dificila se arata posibilitatea de
intelegere a modului cum aceasta informatie este prelucrata si utilizata de sistemul
de prelucrare, care are ca element central creierul uman. Pe baza informatiei
vizuale, care reprezinta mai mult de 80% din totalul intrarilor senzoriale, omul
reuseste, intr-o prima etapa, sa identifice si sa localizeze obiectele din mediul
inconjurator. Desigur, intelegerea scenelor privite este o operatie mult mai
complexa si o putem defini ca totalitatea operatiilor care mai pot fi facute dupa
simpla clasificare a obiectelor.
Putem remarca faptul ca sistemul de vedere este integrat in sistemul global
care este omul. In sprijinul acestei afirmatii putem face o observatie interesanta.
Pentru orice sistem de vedere este important sa poata localiza obiectele din spatiul
aplicatiei pe baza informatiei din imaginile achizitionate. Pentru vederea artificiala,
realizarea acestei corespondente intre coordonatele globale si coordonatele imagine
se bazeaza pe o etapa initiala care se numeste calibrarea camerelor de luat vederi.
Calibrarea camerelor produce o matrice de transformare a coordonatelor. Aceasta
matrice este valabila atata timp cat pozitia si orientarea camerelor sunt fixe in
raport cu anumite repere de referinta. Este evident ca in creierul omului astfel de
corespondente nu pot fi realizate matriceal! Totusi plasarea celor doi senzori, care
sunt ochii, intr-o pozitie relativ fixa in raport cu scheletul nostru, si deci si cu
sistemele noastre de locomotie si manipulare, este o conditie care sustine abilitatea
noastra de a localiza si manipula corect obiectele. Pentru configuratia fixa care este
proprie fiecarui individ, corespondenta imagine - mediu inconjurator este invatata
si permite o foarte buna viteza de reactie. Daca incercati sa manipulati obiecte pe
baza unor imagini dintr-o oglinda sau achizitionate cu o camera TV si afisate pe un
monitor, veti avea dificultati si performante modeste. O noua corespondenta
imagine - mediu inconjurator trebuie construita si aceasta sarcina necesita un timp
de adaptare. Acesta este motivul pentru care nu ne asteptam la performante
remarcabile de la un sistem de vedere plasat in varful unor antene care se
orienteaza permanent, ca in filmele SF! Nici melcul nu este un vitezist!
Pentru sistemul de vedere uman putem face o apreciere generala a
performantelor pe care acesta le ofera:
! Masurarea distantelor este facuta calitativ, rezultand mai degraba informatii
de tipul "mai aproape", "mai departe", "mai scurt" sau "mai lung" decat
dimensiuni exprimate in unitati de masura. Va puteti convinge incercand sa
apreciati dimensiunile obiectelor din jurul dumneavoastra, in centimetrii. In mod
normal veti avea aproximari de circa 10%. Nu avem in vedere iluziile optice care
pot fii induse prin diferite mici trucuri.
! Sesiziarea detaliiilor tridimensionale (relief) este foarte buna.
! Aprecierea directei (orientarea muchiilor) este buna si se face tot calitativ si
nu cantitaiv.
! Achizitia si prelucrarea imaginilor in miscare se face cu o viteza mai mare de
10 imagini intr-o secunda. Este o viteza apreciata ca timp real relativ la actiunile
(de exemplu deplasare, manipulare, supraveghere) pe care le poate intreprinde o
persoana.
! Sesizarea contururilor obiectelor se face cu foarte buna precizie.
! Rezolutia (sesizarea detaliilor) este foarte buna si este superioara rezolutiei
asteptate in raport cu numarul celulelor vizuale individuale.
! Culoarea este perceputa in banda de lungimi de unda 400 nm - 800 nm.