course-details-portlet

TDT4265

Datasyn og dyp læring

Studiepoeng 7,5
Nivå Høyere grads nivå
Undervisningsstart Vår 2026
Varighet 1 semester
Undervisningsspråk Engelsk
Sted Trondheim
Vurderingsordning Samlet karakter

Om

Om emnet

Faglig innhold

Se den engelske beskrivelsen dersom du finner noen av uttrykkene under litt merkelig / vanskelig å forstå.

Moderne datamaskinsyn (CV), drevet av dyp læring (DL) og i økende grad kjent som visuell intelligens (VI), gjør det mulig for maskiner å tolke og forstå visuelle data. Denne teknologien, som er avgjørende i dag innen felt som autonome kjøretøy og medisinsk bildediagnostikk, forventes å revolusjonere en rekke industrier ved å muliggjøre mer presis og effektiv visuell analyse.

Kurset vil dekke de matematiske og beregningsmessige grunnlagene som er essensielle for dyp læringsbasert CV, sammen med sentrale nevrale arkitekturer og deres treningsmekanismer, inkludert veiledet, selvveiledet, uveiledet og forsterkningsbasert læring. Faget vil adressere viktige oppgaver innen datamaskinsyn og fremheve innflytelsesrike og toppmoderne arkitekturer for hver oppgave. Kurset vil også undersøke de viktigste rammeverkene og verktøyene i feltet og utforske bruksområder som driver utviklingen av datamaskinsyn.

Noen flere detaljer om kursinnholdet:

  • Grunnleggende innen DL: Fra nevroner/enheter til nevrale nettverk (NNs). Grunnsannhetsdata (GT), parametere (vekter og skjevheter), aktiveringsfunksjoner og tapsfunksjoner. Beregningsgrafer, oppdateringsregel, gradienter og veiledet læring. Fremover- og bakoverpassering i grunne nevrale nettverk, matrise-notasjon. Normalisering (data/parti) og initialisering (parametere). Hyperparameter-tuning og gradientbasert optimalisering (fra enkle til toppmoderne optimeringsmetoder). Generalisering og regularisering.
  • Arkitekturer: Fullt koblede (Dense) NNs (FCNNs), Konvolusjonsbaserte NNs (CNNs) og ulike typer konvolusjoner (inkludert Residual NNs og Capsule Nets), Rekurrente NNs (RNNs, LSTMs, GRUs) for CV (f.eks. sekvenser av rammer i en video), Transformere og selvoppmerksomhetsmekanismen. Vision Transformers. Grafbaserte NNs (GNNs) for CV. MAMBA-arkitekturen.
  • CV-oppgaver:
    • Veiledet: Bildeklassifisering, Objektdeteksjon, Segmentering (semantisk, instans, panoptisk), Dybdeestimering og POSE-estimering osv. Objektsporing (f.eks. samme ID på et objekt i en videosekvens).
    • Selvveiledet læring (SSL): Store visjonsmodeller og multimodale grunnlagsmodeller (inkludert bilder og video).
    • Uveiledet læring: Autoenkodere (AE) og Variasjonelle Autoenkodere (VAE). Generative Adversarial Networks (GANs). Diffusjonsmodeller. Tekst-til-bilde/video/3D.
    • Forsterkningslæring i konteksten av CV: Verdibaserte metoder, Policy Gradient-metoder og Actor-Critic-metoder.

Dette kurset gir en omfattende introduksjon til de mest sentrale konseptene og teknologiene innen moderne datamaskinsyn og dyp læring.

Læringsutbytte

Kunnskap:

  • Forstå de grunnleggende konseptene og matematiske prinsippene bak algoritmer for dyp læring og deres anvendelse innen moderne datamaskinsyn.
  • Gjenkjenne strukturen og funksjonaliteten til ulike nevrale nettverksarkitekturer (FCNNs, CNNs, Vision Transformers, etc.) samt deres rolle i å løse spesifikke oppgaver innen datamaskinsyn.
  • Forstå de teoretiske aspektene ved læringsmekanismer som veiledet, selvveiledet, uveiledet og forsterkningsbasert læring, og hvordan disse bidrar til feltet visuell intelligens.

Ferdigheter:

  • Anvende kunnskap om dyp læring for å konstruere og trene nevrale nettverk for en rekke oppgaver innen datamaskinsyn, som bildeklassifisering, objektdeteksjon, segmentering, dybdeestimering, pose-estimering og generativ AI for synsoppgaver.
  • Benytte toppmoderne optimeringsteknikker, normaliseringsprosesser og regulariseringsmetoder for å forbedre generaliseringen av nevrale nettverksmodeller.
  • Bruke sentrale rammeverk og verktøy etablert i feltet for å implementere og evaluere modeller for datamaskinsyn.

Generell kompetanse:

  • Analysere og kritisk vurdere ulike nevrale nettverksmodeller og arkitekturer, og velge den mest passende for en gitt oppgave innen visuell intelligens.
  • Integrere avanserte løsninger innen datamaskinsyn i ulike bruksområder, som autonome kjøretøy og medisinsk bildediagnostikk, for å forbedre nøyaktighet og effektivitet.
  • Vise problemløsningsevner ved å justere hyperparametere og nettverksarkitekturer for å optimalisere ytelsen for oppgaver innen datamaskinsyn.

Læringsformer og aktiviteter

Forelesninger, selvstudium, oppgaver og et mini-prosjekt med reelle anvendelser.

Forelesningene vil bli holdt på engelsk.

Å utvikle praktiske ferdigheter er en viktig del av kurset (verktøy, sentrale DL-rammeverk osv.).

Obligatoriske aktiviteter

  • Øvinger

Mer om vurdering

Den endelige karakteren baseres på to deler: et mini-prosjekt med reelle anvendelser og noen oppgaver (40%), samt en digital skoleeksamen (60%). Begge deler gis en bokstavkarakter og vektes for å danne den endelige karakteren i kurset. Begge deler må bestås individuelt i samme semester for å bestå kurset.

Eksamensoppgavene vil kun bli gitt på engelsk.

Hvis det arrangeres en konteeksamen, kan eksamensformen endres fra skriftlig til muntlig.

Hvis en student velger å ta kurset på nytt for å forbedre karakteren, eller hvis studenten strøk i kurset, må begge deler av kurset gjennomføres på nytt.

Tradisjonelle øvinger anses som obligatorisk aktivitet, og en viss mengde av dette arbeidet må være godkjent for å få adgang til eksamen.

For gruppearbeid kan forskjellige karakterer gis dersom arbeidsinnsatsen i gruppen klart har vært ujevnt fordelt.

Kursmateriell

  • Bok: Understanding Deep Learning, Simon J.D. Prince (nettbasert)
  • Bok: Neural Networks and Deep Learning, Michael Nielsen (nettbasert)
  • Bok: Deep Learning, Ian Goodfellow et al. (nettbasert)
  • Tilleggsmateriale vil bli delt ut etter behov.

Studiepoengreduksjon

Emnekode Reduksjon Fra
SIF8066 7,5 sp
Dette emne har faglig overlapp med emnet i tabellen over. Om du tar emner som overlapper får du studiepoengreduksjon i det emnet du har dårligst karakter i. Dersom karakteren er lik i de to emnene gis det reduksjon i det emnet som er avlagt sist.

Fagområder

  • Informatikk
  • Teknologiske fag

Kontaktinformasjon

Emneansvarlig/koordinator

Faglærere

Ansvarlig enhet

Institutt for datateknologi og informatikk

Eksamen

Eksamen

Vurderingsordning: Samlet karakter
Karakter: Bokstavkarakterer

Ordinær eksamen - Vår 2026

Skriftlig skoleeksamen
Vekting 60/100 Hjelpemiddel Kode D Varighet 4 timer Eksamenssystem Inspera Assessment Sted og rom Ikke spesifisert ennå.
Oppgave
Vekting 40/100

Utsatt eksamen - Sommer 2026

Skriftlig skoleeksamen
Vekting 60/100 Hjelpemiddel Kode D Varighet 4 timer Eksamenssystem Inspera Assessment Sted og rom Ikke spesifisert ennå.