Cos’è?

La computer vision è una branca dell’intelligenza artificiale che consente ai sistemi informatici di estrarre informazioni rilevanti da immagini, video e altri input visivi per vedere, analizzare e interpretare dati visivi, sfruttando telecamere, algoritmi e potenti sistemi di calcolo, per eseguire funzioni in tempi molto brevi e su vasta scala. Simile alla visione umana, la computer vision è in grado di distinguere oggetti, determinare le loro posizioni, riconoscere movimenti e identificare anomalie.

La storia

1959

furono condotti i primi esperimenti significativi da neurofisiologi che mostrarono a un gatto una serie di immagini, cercando di collegare la reazione del cervello agli stimoli visivi. Scoprirono che il gatto rispondeva principalmente ai bordi netti e alle linee, suggerendo che l’elaborazione delle immagini iniziava con forme semplici. Intorno a quel periodo, venne sviluppata la prima tecnologia di scansione delle immagini al computer, che permetteva ai sistemi di digitalizzare e acquisire immagini.

1963

i computer riuscirono a trasformare immagini bidimensionali in forme tridimensionali. In questi anni l’intelligenza artificiale divenne un campo di ricerca accademico, e i primi tentativi di applicarla alla visione umana cominciarono a emergere.

1974

fu introdotta la tecnologia di riconoscimento ottico dei caratteri (OCR), che permetteva di riconoscere testo stampato in vari font. Parallelamente, venne sviluppato il riconoscimento intelligente dei caratteri (ICR), per decifrare il testo scritto a mano utilizzando reti neurali. Queste tecnologie hanno aperto la strada a molte applicazioni comuni, come l’elaborazione di documenti, il riconoscimento delle targhe dei veicoli, i pagamenti mobili e la traduzione automatica.

1982

il neuroscienziato David Marr dimostrò che la vista funziona in modo gerarchico e introdusse algoritmi per le macchine capaci di rilevare bordi, angoli, curve e forme elementari. Nello stesso periodo, l’informatico Kunihiko Fukushima sviluppò una rete di celle in grado di riconoscere i modelli, chiamata Neocognitron, che integrava strati convoluzionali in una rete neurale.

2000

la ricerca si concentrò sul riconoscimento degli oggetti e, nel 2001, comparvero le prime applicazioni di riconoscimento facciale in tempo reale. Si affermò, inoltre, la standardizzazione dei set di dati visivi, in termini di etichettatura e annotazione.

2010

fu reso disponibile il set di dati ImageNet, contenente milioni di immagini etichettate attraverso migliaia di classi di oggetti, fornendo una base per le CNN (reti neurali convoluzionali) e i modelli di deep learning utilizzati oggi.

2012

un team dell’Università di Toronto introdusse una CNN in un programma di riconoscimento delle immagini chiamato AlexNet, che ridusse significativamente il tasso di errore nel riconoscimento delle immagini. Questa innovazione portò a un drastico calo dei tassi di errore, riducendoli a pochi punti percentuali, e segnò una svolta cruciale nel campo della visione artificiale.

Come funziona la Computer Vision?

Per riconoscere e comprendere le immagini, la computer vision richiede un’enorme quantità di dati. Attraverso ripetute analisi, il sistema impara a distinguere le caratteristiche delle immagini, come forme, colori e modelli. Tecnologie come il deep learning e le CNN sono fondamentali per questo processo.
Il deep learning permette ai modelli di apprendimento automatico di auto-migliorarsi analizzando grandi set di dati visivi.
Le CNN scompongono le immagini in pixel, etichettano queste informazioni e applicano convoluzioni per fare previsioni accurate.
Questo processo iterativo permette alle macchine di interpretare le immagini in modo simile agli esseri umani, migliorando costantemente l’accuratezza delle loro previsioni.
Gli algoritmi di Computer Vision possono effettuare controlli su un’immagine, a seconda delle tecniche utilizzate, della tipologia di immagine e del tipo di task.

Image classification

Analisi dell’immagine e attribuzione di un’etichetta della rilevazione

Object Detection

Identificazione di uno o più oggetti all’interno di un’immagine

Image Segmentation

Suddivisione immagine in segmenti distinti per agevolare il riconoscimento

Action Recognition

Identificazione di una o più oggetti e della loro relazione nello spazio e nel tempo

Dove si applica la Computer Vision?

La computer vision trova applicazione in vari settori, dall’industria manifatturiera alla sanità, dai trasporti all’intrattenimento. Ad esempio, nei veicoli autonomi, questa tecnologia può essere essenziale per riconoscere segnali stradali, pedoni e altri veicoli, garantendo una guida sicura e autonoma. Un altro esempio è l’uso della computer vision nei sistemi di sicurezza, dove analizza i feed video per rilevare attività sospette.

Come abbiamo applicato la Computer Vision in Neurally
Da studi ed esperienze del team Neurally nasce un software che, sfruttando la Computer Vision, rileva oggetti in una o più sezioni di un video live o registrato. Questo software si chiama AREA.