Bearbeider ENORME datamengder

FAG Aktuelt

Bearbeider ENORME datamengder

- Jeg er en av dem som satt på gutterommet og programmerte på fritida fordi jeg syntes det var gøy. Bioinformatikk var derfor et naturlig valg etter bioingeniørutdanningen, forteller Øyvind Busk, bioinformatiker ved Sykehuset Telemark i Skien.

Publisert

Endret

Databearbeidelsen som Øyvind Busk gjør etter at serveren har gjort sitt, tar tid. Hvis det er snakk om en panelundersøkelse kan han komme fram til et svar på et par timer. Tolkning av en eksomsekvensering kan ta flere dager. Foto: Grete Hansen

Det var da Sykehuset Telemark (ST) for to år siden kjøpte inn en ”High Throughput Sequencer” (HTS) at Øyvind Busk ble ansatt. Den nye dypsekvenseringsmaskinen genererer store mengder data og det var behov for noen som kunne ta hånd om dem og bearbeide dem.

Busk, som opprinnelig er fra Skien og ønsket seg tilbake til hjembyen, fikk dermed en jobb som var midt i blinken for ham. Han hadde nylig avsluttet en doktorgrad ved Universitetet for miljø og biovitenskap (UMB) på Ås.

- Jeg tok bioingeniørutdanning i Østfold og hadde vel egentlig ingen andre planer enn akkurat det da jeg startet der. Jeg trivdes imidlertid så godt med å studere at jeg bestemte meg for å gå direkte videre med en master etter bacheloren. På grunn av interessen min for programmering var det naturlig å velge bioinformatikk, forteller Busk.

Etter masteren fikk han en stipendiatstilling på UMB og i 2011 disputerte han for doktorgraden. Temaet var tarmkreftceller.

- Den handlet om hvordan fettsyrer påvirker utrykket av proteiner som har en gunstig virkning i bekjempelsen av tarmkreft. Det vil si, oppgaven tok for seg informatikkarbeidet i forbindelse med prosjektet – databehandlingen av proteinreguleringen.

En utdanning for bioingeniører?
- Er bioingeniører spesielt godt egnet til bioinformatikkstudier?

Busk drar på det.

- Bioinformatikk er et stort fagområde som er vanskelig å definere eksakt. Jeg har da også inntrykk av at det defineres ulikt ved forskjellige universiteter og institusjoner. Bioingeniørutdanningen kan være en grei bakgrunn, men i tillegg bør man ha interesse for datatekniske fag. Og hvis man ikke har noen bakgrunn innen IKT, bør man skaffe seg det. Det går flere veier fram mot tittelen bioinformatiker, avhengig av hvilket universitet man velger.

- Var du en racer i matematikk på videregående?

- Egentlig ikke. Jeg var middels interessert i matematikk, men veldig interessert i statistikk.

En av de første

Arbeidsplassen hans, Enhet for medisinsk genetikk ved Seksjon for laboratoriemedisin ved ST, er i følge Busk en av Norges eldste medisinsk genetiske avdelinger (startet i 1971). Det jobber mange bioingeniører ved laboratoriet (blant annet enhetslederen), i tillegg til leger, genetikere og ingeniører. Laboratoriet utfører cytogenetikk (for eksempel kromosomundersøkelser og array CGH), DNA-diagnostikk og biomonitorering. Da dypsekvenseringsmaskinen ble innkjøpt i 2011, var ST et av de første sykehusene i landet som tok denne nye teknologien i bruk i rutinemessig diagnostikk. Instrumentet brukes også i flere store forskningsprosjekter.

- I rutinen bruker vi maskinen på to måter. Enten til å sekvensere paneler av utvalgte gener, eller til eksomsekvensering, det vil si sekvensering av alle proteinkodende gener.

- Ikke alle genene?

- Bare én prosent av genene er kodende – det vil si at de blir til proteiner. Det er i disse områdene at mesteparten av sykdomsvariasjonen ligger, derfor er det dem vi sekvenserer. Når vi eksomsekvenserer leter vi etter ukjent syndrom eller lidelse. For eksempel hos barn med mental retardasjon eller medfødte misdannelser. Da tester vi barna og foreldrene – etter at de har fått genetisk veiledning. Dette er svært omfattende analyser, forklarer Busk.

Den andre sekvenseringsmåten, med paneler, er mindre omfattende.

- Fordi vi har en lege ved avdelingen som forsker på den nevrologiske sykdommen Charcot-Marie-Tooth, tester vi pasienter fra hele landet for sykdommen. Den kan forårsakes av mutasjoner i over 30 gener. Før vi fikk HTS-maskinen måtte vi sekvensere dem hver for seg, noe som var ekstremt tidkrevende. Nå kan vi gjøre det samtidig, i ett panel, sier Busk.

Han forteller at avdelingen har paneler for flere forskjellige sykdommer.

En nål i en stakk av nåler

Busk viser fram HTS-maskinen, og som de fleste nye stormaskiner er den stor, hvit og anonym å se til. Den kjøres en gang i måneden og hver kjøring tar i overkant av en uke, i tillegg til våtlaben som tar i underkant av en uke. Etterpå skal alle dataene bearbeides – og tolkes. Det tar flere uker.

Det hender at Busk kjører maskinen, men det er vanligvis ikke hans oppgave. Busks «maskin» står ved siden av; serveren som han administrerer fra pc-en sin og som tar seg av alle data som HTS-en genererer. Den bruker også en uke på sin del av jobben.

- Én kjøring med 12 prøver som eksomsekvenseres gir gjerne rådata tilsvarende mer enn 1 TB - som er 1000 GB. Dette er data som må bearbeides og filtreres før jeg kan dele dem med andre. De må gjøres forståelig, forteller han.

- Hvordan behandler du dem?

- Først gjøres rådata om til sekvenseringsdata. Så sammenstiller jeg sekvensbitene mot en referanse av det humane genom som ligger tilgjengelig for alle på internett. Der prøven avviker fra referansen er det mutasjoner - sekvensvarianter, men det betyr ikke nødvendigvis sykdom. Man kan ha mutasjoner uten å være syk. Min jobb er også å skille sykdomsgivende mutasjoner fra de som ikke gir sykdom. Det kan være som å lete etter en nål i en stakk av nåler, sier Busk – og legger til:

- Mye av arbeidet går ut på å lage programmer og systemer som utfører disse analysetrinnene, lagrer dataene i databaser og rapporterer funnene på en oversiktlig måte.

Det hender at Øyvind Busk kjører HTS-maskinen. Her holder han flowcellen som instrumentet leser av. På flowcellen hybridiseres prøve-DNA, og DNA-sekvensen blir avlest som én av fire farger. Fargekartene blir senere omgjort til DNA-sekvenser. Foto: Grete Hansen

Tidkrevende

Busk demonstrerer med å vise fram et skjermbilde med en pasientprøve. Han forteller at han i denne prøven har funnet 23 278 varianter i 9291 gener.

- Jeg plasserer sekvensene ved å sammenlikne med referansegenomet. Mange like sekvensbiter kan dermed overlappe hverandre – lag på lag (derav navnet dypsekvensering, red. anm.). En sekvens skal helst repeteres minst 30 ganger for at jeg kan si om den er hetero- eller homozygot. Når jeg har filtrert ferdig og kommet fram til en liste med mutasjoner, skal dataene være forståelig for andre også. Jeg og en av ingeniørene tolker resultatene sammen og lager rapporter som vi diskuterer videre med legene her. Sammen kommer vi fram til en genetisk diagnose og et svar til rekvirenten, forklarer han.

Denne databearbeidelsen som Busk gjør etter at serveren har gjort sitt, tar også tid. Hvis det er snakk om en panelundersøkelse kan han komme fram til et svar på et par timer. Tolkning av en eksomsekvensering kan ta flere dager.

Givende arbeid

En av de store utfordringene i arbeid med genetisk materiale er såkalte tilfeldige funn.

- Vi kan slumpe til å finne noe som vi ikke leter etter. Pasientene må derfor på forhånd ta stilling til om de vil vite om slike utilsiktede funn. Det er heldigvis ikke noe som skjer ofte.

- Hva er det morsomste med jobben?

- Å finne den genetiske årsaken til sjeldne syndromer. Det skjer jo av og til. Men jeg liker i grunnen hele prosessen. Jeg liker å lage programsystemer som fungerer, og å finne mutasjoner, tolke dem for å finne ut om de er sykdomsgivende eller ikke. Det er et givende arbeid, sier Øyvind Busk.