Anatomy of a Software Development Roll:Data Scientist

För tolv år sedan, när jag skrev de första artiklarna för "Cracking the Code:Breaking Down the Software Development Rolles", tog jag ett medvetet och kanske kontroversiellt beslut att inte inkludera databasadministratören eller en databasarkitekt som en del av rollerna. Beslutet togs eftersom det var få organisationer som hanterade den omfattning av data som krävde denna dedikerade roll i mjukvaruutvecklingsprocessen. Lösningsarkitekten kan ta hand om organisationens behov av att utforma datastrukturen som en del av deras övergripande roll. Däremot har datavärlden blivit större sedan dess.

Big Data

Idag står vi inför mer volym, högre hastighet och dynamisk variation av de datakällor som vi bearbetar. Vi pratar inte om de typiska relationsdatabaserna som har varit populära i decennier. Expansionen av data kräver en uppsättning tekniker och färdigheter som skiljer sig från historiska metoder för data som vi har använt.

Att multitråda vår databearbetning är en förbättring av de single threading-metoder för databehandling som populariserade databehandling på 1980-talet; Men även dessa tillvägagångssätt, som är beroende av en enda dator med flera exekveringstrådar, går sönder när mängden bearbetning som krävs för att extrahera mening överstiger kapaciteten hos en enda maskin.

Uppkomsten av tjänstebaserad datoranvändning

1999 kunde användare hemma donera sina extra datorcykler på sina datorer för att hitta utomjordisk intelligens genom projektet example@sqldat.com som drivs genom UC Berkeley. Detta var inte den första användningen av allmänt distribuerad datoranvändning eller gridberäkning, men det är projektet som fångade Internetanvändares fantasi överallt. Plötsligt hade de möjligheten att vara de som hittade "ET." I konstruktionen distribuerade projektet enorma mängder data för bearbetning till många datorer, som utförde beräkningar på data för att se om det fanns intressanta bitar som sannolikt inte bara var bakgrundsbrus. example@sqldat.com var bara ett av de distribuerade datorprojekten som skapade medvetenhet om den typ av problem där en enda dator inte skulle räcka till.

IBM, Microsoft och andra erbjuder nu dator- och maskininlärningstjänster för att hjälpa organisationer att hantera den data som de samlar in och förstå den så att de inte behöver mobilisera en armé av engagerade frivilliga. Plattformarna syftar till att tillhandahålla den datorkraft och den maskininlärning som krävs för att extrahera informationen gömd i datamängderna. Istället för att organisationer behöver bygga och distribuera sina egna datacenter med dedikerade datorresurser, finns resurserna för att omvandla data till information och mening tillgängliga för uthyrning.

Det handlar inte om data, det handlar om insikter

Även om mängden data som vi fångar är häpnadsväckande, är det inte data som är intressant. Det som är intressant är vad data kan berätta – om du kan analysera det. De individuella avläsningarna av en motors prestanda är inte viktiga, men förmågan att förutsäga när motorn behöver underhållas eller sannolikt kommer att gå sönder—det är viktigt.

Dataforskare är inte fokuserade på datalagring som dataarkitekterna och databasadministratörerna var. Istället fokuserar de på omvandlingen av data till information och i slutändan insikter som företaget kan använda för att fatta bättre beslut. Det innebär att leta efter nya metoder för att analysera data på sätt som avslöjar intressanta insikter som företaget kan använda till sin fördel.

Stå på set och statistik

Den traditionella mjukvaruutvecklingsprocessen är bekant med ett procedurmässigt tillvägagångssätt för att lösa problem. Utvecklare, leads och arkitekter är välutbildade i metoderna och fördelarna med procedurkonstruktion. Procedurmässiga tillvägagångssätt är som automatiseringen av en otroligt plikttrogen men inte originell arbetare. Datorn får veta stegen (proceduren) som ska utföras i vilken ordning och under vilka förhållanden den ska upprepa operationen eller dela upp mellan flera vägar. Datavetare arbetar dock inte bara med procedurmetoder utan också med uppsättningsbaserad logik. Tänkestilen skiljer sig, eftersom den letar efter luckor och korsningar. Den fungerar baserat på jämlikhet och ojämlikhet mellan olika uppsättningar av information.

Även om vissa utvecklare har stött på uppsättningsbaserad logik i sitt arbete, måste datavetare vara bekväma och flytande i sin förmåga att manipulera uppsättningar av information.

Dessutom, till skillnad från andra roller i mjukvaruutvecklingens livscykel, behöver datavetaren en specialiserad färdighet utanför området för mjukvaruutveckling. Eftersom datavetare letar efter insikter om samband mellan olika databitar behöver de en solid grund i statistik för att kunna leta efter och generera statistiska värden som korrelation för att svara på frågorna de ställer och hitta inexakta samband mellan olika datamängder.

Var är positionen på väg egentligen?

Datatillväxten har nått vändpunkten. Oavsett om det handlar om sociala nätverksanalyser, klickhistorik eller inköpsdata, ser organisationer verkligt affärsvärde i data som är inlåst i deras databaser, och datavetare är nyckeln till att låsa upp potentialen i denna data.

Att fånga det värdet innebär att anställa personer som har kompetensen att koppla bearbetningsalgoritmerna till data och utnyttja datorkraften för att skapa dessa resultat.

De goda, de onda och de fula

Datavetenskapen exploderar just nu med tillkomsten av Internet of Things-enheter som registrerar alla typer av data från alla möjliga platser. Det innebär stora möjligheter – och mer än några få utmaningar. Här är bara några av dessa utmaningar:

Bra: Det finns stora möjligheter att hitta nya sätt att extrahera insikter från data.
Bra: Dator- och lagringsresurser kan köpas i stora mängder.
Bra: Dataforskare är efterfrågade och kommer sannolikt att förbli så under en tid.
Dåligt: Allt eftersom algoritmer och tillvägagångssätt utvecklas kommer du att känna dig alltid inaktuell.
Dåligt: All data behöver städas och en stor del av tiden kommer att läggas på detta arbete.
Ful: Trial and error kommer att innebära många "misslyckanden" och få triumfer.

Sammanfattningsvis

Rollen Data Scientist har ett snabbt växande behov och en annan uppsättning kompetens. Om du älskade din statistikklass och älskar att hitta mönster som andra människor inte kan se, kan det här vara rätt för dig.