Emne - Datasyn og dyp læring - TDT4265
Datasyn og dyp læring
Om
Om emnet
Faglig innhold
Datasyn danner grunnlaget for en automatisk forståelse av digitale bilder som i dag kan tas opp med mange forskjellige kameraenheter (f.eks. mobiltelefoner, webkameraer, dybde-bilder, MR, Ultralyd...).
Innholdet i kurset varierer fra den klassiske tilnærmelsen til datasyn hvor egenskaper blir trukket ut og klassifisert til mer moderne metoder for bilde forståelse basert på maskin læring og dype nett. Kurset inneholder også en kort gjennomgang av nødvendig programmerings kunnskap og matematikk, i tillegg til basis metoder innenfor bildebehandling/analyse, dette for at alle skal ha den nødvendige ballast for å gå videre med de mer avanserte delene av kurset.
Temaer som blir adressert i kurset er det menneskelige øye og bildedannelse, filtrering i både romlig og frekvens domenet, hierarkiske strukturer og scale space, principal components analysis (PCA), egenskapsuttrekking (f.eks. Harris, SIFT) og matching (f.eks. RANSAC), unsupervised and supervised klassifisering & gjenkjenning så vel som ulike maskinlæringsmetoder, stereosyn, den essensielle og den fundamentale matrisen, optisk flow, tracking (Kalman/Particle), og sist men ikke minst dype nett for datasyn, dvs. fully connected feedforward NNs (Shallow ANNs, forward pass, matrix-based notation and activation functions etc.), learning (cost functions, gradient descent and backpropagation etc.), generalization (overfitting, regularization, initialization, hyper-parameters, vanishing gradients / unstable gradients and deep NNs etc.), CNNs and Image Classification (different layers, especially the conv layer, learning features and sharing parameters, AlexNet and later versions etc.), object detection and semantic segmentation (R-CNN, Fast R-CNN, Faster R-CNN, R-FCN, YOLO / YOLO v2, SSD and Mask R-CNN etc.).
Eksempler vil bli hentet fra ulike applikasjonsdomener som medisin, autonomi (droner, biler, skip) & robotikk, industriell inspeksjon osv.
Læringsutbytte
Kurset gir en oversikt og forståelse av flere grunnleggende teknikker i Datasyn (Computer Vision). Avansert kunnskap på dette feltet blir stadig viktigere. Dette er spesielt sant i lys av den stadig økende tall av kameraer og annet bildebehandlingsenheter i nesten alle områder av vårt samfunn. Kurset bidrar til å bygge kompetanse for å designe og konstruere datasynsmoduler som fungerer i et totalsystem for å løse relevante problemer. Bruksområder inkluderer industri anvendelser, autonomi (droner, biler og skip), robotikk og medisinsk bildeanalyse. Disse emnene kan være basis for ansettelse i industri eller offentlig sektor, eller de kan følges videre i forskning på doktorgradsnivå i Norge eller utenlands.
Læringsformer og aktiviteter
Forelesninger og arbeider. Undervisningsspråk er engelsk. En viktig del av arbeider er et større prosjekt hvor man adresserer en reell problemstilling.
Mer om vurdering
100% arbeider, dvs. ingen hjemmeeksamen (0%).
Emnet vil ha en kombinasjon av individuelle og gruppe innleveringer (arbeider vil best av tre ulike del arbeider, ink. tradisjonelle øvinger).
Anbefalte forkunnskaper
TDT4195 Visuell databehandling, eller tilsvarende.
Kursmateriell
Bok: Digital Image Processing, Rafael C. Gonzalez, Richard E. Woods (Publisher: Pearson)
Bok: Neural Networks and Deep Learning, Michael Nielsen (online)
Bok: Deep Learning, Ian Goodfellow et. al. (online)
Studiepoengreduksjon
| Emnekode | Reduksjon | Fra |
|---|---|---|
| SIF8066 | 7,5 sp |
Fagområder
- Informatikk
- Teknologiske fag