Behandle data fra store filer

Oppgaver vi jobber med sammen p? gruppetimen i uke 5.

Python kan brukes til ? analysere og lese datafiler som er s? store at vi ikke kan ?pne dem eller analysere dem manuelt.

Et eksempel p? slike datasett er genom-data. Denne filen inneholder DNA-sekvensen til kromosome 1, 2 og 3 til et menneske. Filen er s? stor at det ikke vil fungere ? ?pne den og se p? den manuelt, men med Python kan vi ganske raskt og enkelt lese og g? gjennom filen.

Oppgave 1

Last ned filen, og skriv Python kode som printer de f?rst 10 linjene.

Oppgave 2

Du vil se at den f?rste linjen er >1 og deretter kommer det 10 linjer med DNA. I dette tilfellet er sekvensen bare N, som betyr at den er ukjent. Pr?v i stedet ? printe de f?rste 10000 linjene, s? vil du se "kjent" DNA.

Den f?rste linjen >1 forteller at alt som kommer etter dette er sekvensen til kromosom 1. Etter ganske mange linjer vil det komme en linje >2. Hver linje best?r av 80 baser (A, C, T G, eller N).

Oppgave

中国竞猜网_中国足彩网-足球推荐 har vist at personer som har en C p? posisjon 135851076 p? kromosom 2 har stor sannsynlighet for ? v?re laktoseintolerante. Du jobber p? et sykehus, og filen du lastet ned er DNA-et til en person. Avgj?r om denne personen er genetisk disponert for ? v?re laktoseintolerant.

NB: Posisjon 135851076 vil si base nr. 135851076 der den f?rste basen p? kromosome 2 regnes som nr. 1 (ikke 0).

Lag en plan for hvordan du vil g? frem for ? l?se denne oppgaven f?r du begynner p? den.

Oppgave 3

Eksempelet med laktoseintoleranse er bare ett eksempel der én enkelt base kan f?re til en egenskap.

Denne filen inneholder flere andre egenskaper som vi ?nsker ? sjekke automatisk. Hver linje i filen er p? formatet [Kromosom],[Posisjon],[Base som f?rer til egenskapen],[Beskrivelse av egenskapen].

Skriv et program som g?r gjennom filen og sjekker alle egenskapene. Det kan v?re lurt ? skrive funksjoner for ? gj?re de ulike tingene koden din m? ta seg av.