Child pages
  • 201609 Ustabilitet Hjemmeområdet | Unstable home storage

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Latest Update

Siste oppdatering finner du her: https://varsel.it.ntnu.no/post/75/

Forløp og Oppdateringshistorikk

Hva er omfanget

Hjemmeområdet er en virksomhetskritisk tjeneste knyttet til en lengre liste tjenester som er avhengig av hjemmeområdet for å fungere. Dette vil si at hele NTNU er påvirket i varierende grad.
Flere er helt avhengig av å kunne kjøre remoteapps fra programfarm i arbeidsdagen.

Hvordan kan dette påvirke deg

Utilgjengelig lagring:
Ustabiliteten fører til at mange sliter med å koble til hjemmeområdet og nå filene sine. Dette vil også være synlig for de som kjører windows 10 med folder redirect, her kan en oppleve at filer på skrivebord og i dokumenter ikke er tilgjengelig eller ikke synlige om man ikke har kontakt med Hjemmeområdet. 

Får ikke kjørt remoteapps fra farm:
Når en kjører de fleste remoteapps fra farm vil den forsøke å koble seg til hjemmeområdet for lagring, om denne tilkoblingen ikke blir fullført vil remoteapp vinduet lukke seg selv.

Treghet i pålogging til NTNU maskiner:
Når en logger på maskiner vil disse (i likhet med farm.ntnu.no) forsøke å koble opp hjemmeområde. Dette kan gjøre at maskinen blir hengende på ‘velkommen’ for windows 10 eller med svart skjerm for windows 7. En løsning for å komme inn her vil være å midlertidig fjerne nettilkoblingen enten ved å sette maskinen i flightmodus eller ta ut nettverkskabelen og sette denne inn når maskinen er logget på.

Tiltak for å sikre dagens tjeneste på kort sikt (dag til dag/time til time)

  • Optimalisert I/O
  • Snapshot redusert til hver annen time
  • Opprydning i snapshots gjøres kun på kveld/natt
  • Backup-jobber kjøres kun på kveld/natt
  • Administrative jobber gjøres kun på kveld (eks. legge til mer plass for enkeltbrukere)
  • Endret idle time-out for farm-sesjoner fra 24t til 1t
  • Tiltak på klientsiden for å redusere trafikk mot lagringssystemet
  • SMB signering slått av
  • Deaktivert folder redirect av %appdata%
  • Sjekket ut antivirus config for hjemmeområdene
  • Åpnet for å kjøre ePhorte lokalt
  • Last balansering – Enkelte områder med store mengder filer er håndtert og om nødvendig flyttet til annen løsning.
  • Bremset win10 utrulling for å hindre økt last
  • Vurdert applocker for software som lagrer til profil (spotify, Gdrive, Dropbox++)
  • Ny lagringsløsning er kjøpt inn og blir haste-innført med hjelp fra leverandør NetApp

Historikk

17.10.2016

Ny lagringsløsning har i helgen tatt over for den gamle, testet av IT-ansatte over den siste uken. Noen problemer grunnet gamle sikkerhetsinnstillinger satt via GPO, disse ble luket ut iløpet av dagen. 

06.10.2016

Normal drift

Ny lagringsløsning er på plass, all data er overført. Det gjenstår enda en del arbeid og testing før denne kan ta over helt for den nåværende. Rough estimate er 14 dager.

27.09.2016 - 05.10.2016

Normal drift

Ny tjeneste er montert og all data er flyttet. Det gjenstår en del arbeid før tjenesten kan overta. Rough estimate: 14d

26.09.2016 #2

Hjemmeområdet har slitt med høy last 11:30-14:50

Tjenesten har stabilisert seg kl 14:50

26.09.2016 #1

Tjenesten kjørte ustabilt 09:00-10:00, dette som en bivirkning til vår retting av farm.ntnu.no.

Når vi åpnet for nye connections til farm ville dette samtidig gi likt antall connections til hjemmeområdet. Dette kvelte tjenesten en stund.
Begge tjenestene kjører nå som normalt igjen.

21-23.09.2016

Ingen endring.

20.09.2016

Ingen endring i situasjon. Vi ser fortsatt noen avvik, kl 14:00-14:10 hadde vi en kø som kan ha påvirket farm.

19.09.2016 #2:

Systemet har løst køen.

19.09.2016 #1:

Akkurat nå fra kl 14:00 -> ser vi en ganske stor kø på Hjemmeområdet, dette kan medføre at folk ikke får brukt relevante tjenester;

  • Tilgang til Hjemmeområdet
  • Windows 10 Folder redirect
  • Farm
  • Login på klienter kan ta tid.

15-16.09.2016

Situasjonen er uendret.

14.09.2016

Vi ser så langt ingen køing på Hjemmeområdet

13.09.2016

Tjenesten kjører fortsatt noe ustabilt, men forutsigbart, med køer rundt hver hele time. Vi kommer med oppdatering når det trengs fremover. Foreløpig er fokus på hardware bytte og endring i backup rutiner for Hjemmeområdet. Vi ser også på mulighet for å redusere backupfunksjonen, men dette har stor konsekvens og er ikke vedtatt.

12.09.2016

Tjenesten kjører så langt stabilt, fortsatt noe kø rundt hver hele time.

09.09.2016 #2:

Tjenesten har vært stabil ut kjernetiden, vi har fortsatt sett køing på hele timer, men køantallet har vært lavt og forsvunnet raskt.

09.09.2016 #1:

Tjenesten fungerer som normalt. Vi forventer at vi ser små topper på hver hele time hvor det kan danne seg køing i 1-3 minutter.

 08.09.2016 #2:

Tjenesten har stabilisert seg kl 16:00

08.09.2016 #1:

Vi opplever stor kø på hjemmeområdet akkurat nå klokken 08:00
Klokken 09:30 - Vi ser ingen merkbar forbedring enda.
Dette vil påvirke en lang rekke relaterte tjenester som:
farm.ntnu.no (programfarm) kan oppleve treghet, starting av remoteapps kan avslutte seg selv.
pålogging NTNU maskiner, auditoriemaskiner, ansattmaskiner, publikumsterminaler
ephorte (kjøres nå lokalt for alle som ønsker)
windows 10 live-sync av filer

07.09.2016:

Vi opplever forbigående køer særlig på hver hele time når snapshot backup tas, disse med kort varighet på 1-5 minutter.
Vi jobber med bakenforliggende grunn til dette, samt hvorfor køen noen dager kan låse seg på et høyt nivå uten å tilsynelatende klare å ta unna køen.

06.09.2016 #2:

Stabiliteten har vært som forventet, vi ser klare mønster i når det er last på auth server, vi ser på hva grunnen er. Samtidig ser vi på hvorfor mandagene blir sterkt rammet og om dette kan motvirkes.

06.09.2016 #1:

Vi ser en lik situasjon som forrige uke, Hjemmeområdet er i dag stabilt, men kan oppleve mindre topper (09:00-09:10), som kan gi små login problemer.

Vi forventer at dette holder seg stabilt ut dagen.

05.09.2016 #2:

Vi har fortsatt stor pågang for Hjemmeområdet, og køen har holdt seg ut dagen. Vi jobber med alternative midlertidige løsninger for de som er avhengig av Ephorte og Maconomy.

Leverandør er fortsatt involvert og jobber med permanent løsning.

05.09.2016 #1:

Vi ser en stor kø om morgenen mandag, dette så vi ikke i forrige uke, foreløpig ligger køen på nærmere 650 klienter og stiger. En kan regne med at tjenester som Farm vil slite mellom 08:00 og 09:00. Dette henger muligens sammen med at lasten er særlig stor mandag morgen, vi jobber med saken.

02.09.2016 #2:

Vi kan tydelig se at vi har kø på de samme tidspunktene, om dette kan spores til spesifikke lagringsvolum gjenstår å se. Fra 09:00 til 09:30 hadde vi størst kø på 200 klienter. Dette er samme nivå som torsdag, men vi ser ut til å ha blitt truffet mer uheldig i dag enn foregående dag med tanke på hvilke klienter som ble satt i kø. Særlig farmbrukere er utsatt.

Klokken 11 hadde vi en liten stopp på 20 klienter, dette ville flydd under radaren for de aller fleste.

Vi har også fått flere tilbakemeldinger på at tjenesten har vært stabil i går og i dag, dette stemmer overens med kø-tall.

Noen tiltak som har blitt jobbet med i dag:

  • Flytting av AppData til annen tjeneste
  • Strupe inn unødvendig last ift. Windows 10 folder redirect
  • Utforske køing på spesifike tider skyldes spesifike lagringsvolum og snapshots
  • Hardware bytte

02.09.2016 #1:

Vi ser de samme kø-periodene i dag, nå rundt kl 9 var det en kø på opptil 200 klienter, denne har på 15minutt sunket til 100 og går gradvis nedover. Vi ser på hva disse skyldes.

01.09.2016 #2:

Vi har sett en betydelig økning i tilbakemeldinger på at hjemmeområdet i dag har vært stabilt. 
Dette betyr ikke at vi har hatt en feilfri dag for tjenesten, vi har hatt noe køing, spesielt 08:30-09:00 og 11:05-11:15. Mellom 8 og 9 er nok fordi det genereres stor pågang når ansatte og studenter logger på om morgenen. Build-up i 11 tiden må vi se på. Tilbakemelding viser at når det var kø kunne det ta 5-15 sekunder før dette løste seg opp for hver enkelt bruker, dette gjaldt ca 100-200 klienter på det verste.

Grunnen til at dette tar litt tid er fordi det innføres tiltak jevnlig, men det må gis tid så vi kan se hva som påvirker tjenesten både positivt og negativt, spesielt nå som det er sårbart.
De største endringene er SMB signering som er deaktivert, session-tid for farm, refreshrate for farm.

Vi håper morgendagen blir enda mer stabil slik at brukere generelt slipper å bekymre seg for å bruke tjenesten fremover mens vi finner en god permanent løsning.

01.09.2016 #1:

Vi overvåker lasten, noen nøkkeltall med en klype salt:
Mandag: 77% last
Onsdag: 40-60% last
Torsdag: 33% last enn så lenge, peak hours er 10-12
Videre vil vi innføre små endringer og håpet er at dette vil gi oss stabilitet nok til å begynne med hardware utbytte for permanent løsning.

31.08.2016 #2:

Vi har utført en del tiltak på tjenesten, noen av tiltakene vil ta tid å se effekten av, og noen tiltak kan medføre ustabilitet ved innføring før det jobber seg ferdig. Scroll til bunnen for en teknisk oversikt.

29.08.2016:
Ansatte fra NTNUIT og eksperter fra leverandøren jobbet ut kvelden for å finne rotårsak.

Ingen endelig konklusjon på hvor problemet ligger, men teorien vi jobber utifra nå er at en sentral enhet i lagringsløsningen kan være for hardt belastet.
Dagen i dag brukes på videre feilsøking og tiltak for avlasting til denne komponenten.

30.08.2016: 
Vi ser fortsatt ustabilitet ved nye oppkoblinger til M:\

Det er gjort flere tiltak fra vår side uten at problemet er løst, vi har en mistanke om hvor problemet ligger og har derfor bedt om bistand fra leverandøren for å se på dette med oss.
Teknisk personell fra leverandør er på plass tirsdag.

29.08.2016:
Vi opplever treghet i oppkobling til hjemmeområdet (personlig lagring)

 

 

Latest Update

You can always find the latest update here: https://varsel.it.ntnu.no/post/75/

What is the scope:

 The Home storage is a vital core service at NTNU, directly affecting a number of other services if unstable or down completely. The scope is therefore affecting the entire organization in varying ways and levels.

 How could this affect you:

 This will affect several core services at NTNU, such as:

Home storage files unavailable:
The instability might prevent users from accessing their home storage. This will also be visible to anyone using windows 10 with folder redirect, files on the desktop and in My Documents might be unavailable with a red X, or not visible while disconnected from home storage. 

Unable to run remoteapps from softwarefarm:
Most remoteapps need a connection to your home storage to function, this is connected when you run the remoteapp. If the connection times out or is refused, the remoteapp will close out.

Slow login to NTNU clients and machines:
As with the softwarefarm, when logging in to NTNU clients, it will automatically try to connect to your home storage. If this connection cannot be made, the computer might be stuck at ‘welcome’ on windows 10 or on a black screen for windows 7. A temporary solution is to deny internet access to the computer, this will stop the connection process and log you in. Put the computer in flight mode, or unplug the network cable, re-access the internet after logging in successfully.

Update History

17.10.2016

New storage solution took over during the weekend, IT has been testing this for a while, especially in the last week. We encountered some problems with old security-settings via GPO settings, the issue only affected some windows 7 GPO clients.

06.10.2016

Normal service

New storage solution is set up, all data is copied. Still some work&testing to be done before the new service can commit handoff from the old. Rough estimate:14 days.

27.09.2016 - 05.10.2016

Normal service level

26.09.2016 #2

Very high load on the Home storage auth-server from 11:30-14:50

The service has returned to normal 14:50

26.09.2016 #1

Home storage was unstable between 09:00-10:00, this was a consequence of us fixing farm.ntnu.no. https://varsel.it.ntnu.no/post/91/

When allowing new connections to farm, this would give the same # of connections to the home storage authentication server. This gave us high load for a while.
Both services are now back to normal.

21-23.09.2016

No change

20.09.2016

No change. We can still see some deviations, we had a queue at 14:00-14:10 that might have caused some issues.

19.09.2016 #2:

The system has resolved the queue and is back to its normal state.

19.09.2016 #1:

We are experiencing problems with Home storage, the problems started 14:00 and has grown. This will cause some issues using the connected services:

  • Access to Home storage
  • Windows 10 folder redirect
  • Farm
  • Login to clients might take time

15-16.09.2016

No change in situation.

14.09.2016

We're not seeing any queues this morning.

13.09.2016

The service is still unstable, but predictable. We can still see queueing around the hours when backup is taken. We'll update when we have new info. We are currently focused on hardware change and some changes to the routinely backups. 

12.09.2016

The service has been stable, still some queues around each whole hour.

09.09.2016

The service is currently stable.

09.09.2016 #2:

We've had an improved stability in the service, some queues at peak hours with low queue numbers and the queues diminished quickly.

09.09.2016 #1:

The service is currently operating at a normal level, we should see small peaks at whole hours with short queue-times of 1-3 minutes.

08.09.2016 #2:

The service has stabilized after 16:00

08.09.2016:

We are currently experiencing a large queue at 08:00
Update 09:30 - We do not see any improvements as of yet.
This will also affect a long list of dependent services such as:
farm.ntnu.no (ProgramFarm) might experience freezing apps, remoteapps might quit upon startup.
Login to all NTNU computers
ephorte (this can now be run locally without farm)
windows 10 live-sync files

07.09.2016:

We are seeing short-lived queues around every whole-hour, this is because of snapshot backups that are taken every hour. The queues usually last for 1-5 minutes.
We are working on the root cause of this, and also looking into why the queues get stuck on a high number at select days, where it is unable to process the queue in a reasonable time.

06.09.2016 #2:

The service has performed as expected, the peaks are at oddnumber hours, same as last week. We're looking into the root cause. We're also looking into why we see especially high load on mondays.

06.09.2016 #1:

We can see similarities to last week, home storage is stable but can experience some short peaks (09:00-09:10), where a few logins might get stuck.

We expect the service to remain stable throughout the day.

05.09.2016 #2:

We've seen queues of varying size throughout the day, we're working on temporary solutions for Ephorte and Maconomy.

Service provider is still involved and helping us towards a permanent solution.

05.09.2016 #1:

We're seeing a large queue monday morning, as of right now, the queue is around 650 clients and rising. Services such as Software Farm will feel the impact between 08:00 and 09:00.

02.09.2016 #2:

We've seen the same queue times as yesterday, with a maximum of 200 at 09:00-09:30. We also had a small queue at 11:00 of 20 clients. We're looking into the root cause.

According to what we've monitored and feedback from users, the service should have operated normally in the timespan around the pre-mentioned times. 

Here are some changes we've worked on today:

  • Moving AppData sync to a different service
  • Limiting load from Windows 10 Folder Redirects
  • Looking into root cause of queue times, if spesific storage-volumes is linked with snapshot times.
  • Hardware replacements

02.09.2016 #1:

So far, we've had the exact same queueing as yesterday, reaching a peak around 9 of 200 clients. The queue has been reduced to 100 clients in 15 minutes and is still declining. We're looking into the cause.

01.09.2016 #2:

We've seen an increase in reports that the service has been stable. This does not however mean we've had no issues, there has been some queues around 08:30-09:00 and 11:05-11:15. By looking at the reports, we can say there were 100-200 at most and they would experience delays of 5-15 seconds.

We're still implementing changes, but these must be implemented with enough time inbetween to give us the ability to keep overwatch of positive and negative consequences of the changes.

We hope to deliver a more stable service tomorrow and the coming days, and that users won't have to be uneasy in the use of Home storage / Personal storage and farm while we work on more permanent solutions.

01.09.2016 #1:

We're monitoring component load, some key figures to be taken with a grain of salt:

Monday: 77% load
Wednesday: 40-60% load
Thursday: 33% load so far, peak hours at 10-12
Going forward, we will implement more small changes in hopes that this will give us a stable service while we start on hardware changes.

31.08.2016 #2:

We've implemented some changes to the service, some of these changes will need time to show its effect. Some changes might give instability in the form of more load while going into effect.

31.08.2016 #1:
Employees from NTNUIT and personell from our service provider has worked tuesday night to disclose the root cause of the issue.

No final conclusion could be set, but we are working from a theory that a central unit in the storage solution is under high load at times.
The following day will be used to implement changes to reduce load to this unit and hopefully this will give tangible improvements.

30.08.2016:

We’re still experiencing unstable logins to home storage / personal storage

We’ve implementet several changes so far without the issue resolving. The service provider will provide support in troubleshooting by sending technical personell Tuesday 30th.

29.08.2016:
We’re experiencing unstable login connections to the home storage service.