Automatisk dokking av et autonomt overflatefartøy

Sammendrag

Automatisk dokking er viktig for å realisere autonom skipsfart, og har blitt forsket på siden 1990-tallet. Dokking ses på som en kompleks høyrisikoprosess, der et fartøy trenger å følge havnens regler, unngå både statiske og dynamiske hindringer, nå det ønskede dokkingspunktet og holde sin posisjon mens det venter på å bli festet på en trygg måte. Dette har vist seg å være en vanskelig oppgave, blant annet på grunn av betydelig redusert manøvrerbarhet under dokking og faren for kollisjoner og andre uhell.
Teknikker som optimal kontrollteori og fuzzy-logikk (eng. fuzzy logic) har blitt foreslått for å løse oppgaven med autonom dokking. Disse metodene har noen ulemper. Et viktig eksempel er behovet for pålitelige og gode matematiske modeller. Utfordringer med å lage gode matematiske modeller ligger i å håndtere iboende ulineariteter og varierende forhold under dokking av et fartøy, slik som vekslende hastigheter og værforhold. Andre utfordringer med tradisjonelle metoder inkluderer blant annet avhengigheter av lavnivå kontrollsystemer og meget høye beregningskrav i kontrollsystemene, om bord på skipene.
De siste årene har et felt innen databaserte tilnærminger, kalt dyp forsterkende læring (eng. deep reinforcement learning, DRL), blitt brukt med gode resultater på endel tilfeller av kontinuerlig styring av fartøyer i simuleringer. Dyp forsterkende læring (DRL) optimaliserer løsninger på beslutningsmessige (eng. decision-making) problemer. Dette skjer ved at læringssystemet selv utforsker handlinger i et miljø, og mottar tilbakemeldinger på det som er oppnådd. Nyere utvikling innen DRL har ført til vellykkede løsninger på tidligere uløste oppgaver sammenlignet med andre lovende databaserte tilnærminger.
Ved å bruke DRL for å styre et fartøy til kai (kalt dokking, fra engelsk «docking») unngås flere av ulempene med tidligere brukte metoder. En DRL-basert modell for dokking kan håndtere usikkerhetene i modellene til både fartøy og havn, og kan koples direkte til styringsorganene (aktuatorene), i en ressurseffektiv ende-til-ende-løsning. I tillegg kan DRL-baserte modeller dra fordel av tilgang til manøvreringsdata fra fartøy under læringen, men metoden krever det ikke. Dyp forsterkende læring (DRL) er også i stand til å bruke sensorinformasjon direkte for å lage funksjonelle styringsregler (eng. functional control laws).
Hovedmålet med denne masteroppgaven er å utforske muligheten for å bruke dyp forsterkende læring (DRL) for å lage et ende-til-ende dokkingssystem for et 3-frihetsgraders (3-DOF) fullstyrt autonomt overflatefartøy, og analysere ytelsen og forklarbarheten til kontrollreglene. Den DRL-baserte dokkingsmodellen er opprettet gjennom en progressiv metodikk, som først løser oppgaver som å legge til kai og målsporing (eng. target tracking), før disse kombineres i en ende-til-ende dokkingmodell. Ende-til-ende dokkingsystemet leder fartøyet på en effektiv måte fra like utenfor havnen helt fram til kai, og holder fartøyet ved den angitte plasseringen ved kaia.
Ende-til-ende DRL-kontrolleren bruker informasjon om fartøyets posisjon i forhold til havna for å unngå kollisjoner, og kan til en viss grad håndtere uforutsette havstrømmer. DRL-agenten løser alle disse oppgavene ved å kontrollere både thrustervinkler og krefter. Den DRL-baserte modellen er derfor i stand til både å erstatte thrusterallokeringen, de tradisjonelle kontrollerne og føringssystemet.
Den DRL-baserte modellen ble analysert ved bruk av en tilpassning av Shapley additiv forklaring (eng. Shapley additive explanation, SHAP). Dette er tilpasning av en teknikk fra feltet for forklarbar AI (XAI), og har som formål å skaffe innsikt i og forståelse av DRL-baserte dokkingmodellen. Teknikken presenterer mål på tilstandenes relative bidrag til agentens valg av thrustere, og gir dermed innsikt i enkelte aspekter av DRL-modellenes resonnement. Resonnementet ble analysert både fra generelle synspunkt og for gitte hendelser på bestemte øyeblikk. Det ble vist at slik innsikt fra SHAP kunne brukes til å forbedre DRL-dokkingmodellen.
To forskjellige DRL-algoritmer ble utforsket, proksimal politikkoptimalisering (eng. proximal policy optimisation, PPO) og dyp deterministisk politikkgradient (eng. deterministic policy gradient , DDPG). Det ble vist at PPO fungerte like bra eller bedre enn DDPG for alle læringsaspektene i denne oppgaven rundt dokking.
Dette prosjektet viser at DRL kan være nyttig for å løse dokkingsproblemer, og lage modeller med høy nøyaktighet og effektive baner. Den foreslåtte bruken av SHAP for å analysere atferden til DRL-baserte modeller viser lovende resultater med tanke på å skaffe seg bedre innsikt i resonnementet. Dette gjør det følgelig lettere å forbedre løsningene, og kan øke tilliten til DRL-baserte modeller. Selv om de DRL-baserte kontrollerne ble funnet ved hjelp av en forenklet simulator, kan metodikken utvides til reelle systemer.