Statistica-plattformen rankas bland de fem bästa datavetenskapliga plattformarna av Gartners nya rapport för 2017, "Magic Quadrant for Data Science Platforms" (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- plattformar), tidigare kallade "Advanced Analytics Platforms" 2016. Det breda utbudet av funktioner och ett grafiskt användargränssnitt (GUI) som tillhandahålls av Statistica gör det till ett av de mest använda verktygen för datavetenskap.
Statistica-datafiler kallas Kalkylblad , som har rader och kolumner med data. Rader med data kallas fall och kolumnrubriker för data kallas variabler . Ett vanligt problem vid databeredning är att olika teammedlemmar utvecklar eller samlar in datauppsättningar separat och datauppsättningarna måste slås samman innan kalkylarket kan användas. Data kan finnas i flera datafiler. Vi ska diskutera hur data i två olika datafiler kan slås samman till en enda datafil med Statistica.
Statistica stöder olika typer av sammanslagningslägen för två datafiler, och dessa är:
- Sammanfoga: När två datafiler är sammanlänkade, tas en datafil och läggs till (eller sammanfogas) till höger om den andra datafilen.
- Kartesiska: Skapar en korsprodukt av två datafiler.
- Matcha fallnamn: Slår samman ärendena (raderna) i en fil med ärendena i de andra filerna genom att matcha ärendenamnen.
- Matcha variabler: Slår samman raderna i en datafil med raderna i den andra datafilen genom att matcha variabelnamnen.
Vi ska börja med att diskutera sammanslagningen av sammanfogning. Denna handledning har följande avsnitt:
- Ställa in miljön
- Sammanfoga datafiler
- Slutsats
Ställa in miljön
Ladda ner och installera Statistica Platform. Statistica-datafiler kallas Spreadsheets (lagrade med .sta). ändelse). Vi kommer att skapa några Statistica-datafiler i denna handledning. En datafil skapas med Fil>Ny . I Skapa nytt dokument , välj Kalkylblad , som visas i figur 1.
Figur 1: Väljer Nytt kalkylblad att skapa
För att spara en datafil, välj Arkiv>Spara som , som visas i figur 2.
Figur 2: Arkiv>Spara som
Sammanfoga datafiler
Skapa först de två datafilerna som ska slås samman. Datafilerna som ska slås samman skulle vanligtvis ha samma antal rader och samma eller olika antal kolumner. Eftersom data ska sammanfogas, skulle kolumnnamnen vanligtvis vara olika. Inget av detta är ett krav; två datafiler kan ha olika antal rader och vi ska diskutera hur man slår ihop en sådan uppsättning datafiler också. Målet är att slå samman data i en datafil med den andra så att 2 datafilen läggs till på höger sida av 1 datafilen. Som ett exempel, skapa en datafil (kallad wlslog1.sta ) med kolumnrubriker (variabler ) tidsstämpel , kategori , och skriv och följande data (exempel på loggdata).
4-8-2014-7:06:16,Notice,WebLogicServer4-8-2014-7:06:17,Notice,WebLogicServer4-8-2014-7:06:18,Notice,WebLogicServer4-8-2014 -7:06:20,Notice,WebLogicServer4-8-2014-7:06:21,Notice,WebLogicServer4-8-2014-7:06:22,Notice,WebLogicServer
wlslog1.sta datafil visas i Statistica i figur 3.
Figur 3: Datafil wlslog1.sta
Skapa ytterligare en datafil (wlslog2.sta ) med kolumnrubriker servernamn , kod och msg , och lägg till följande data (även exempel på loggdata).
AdminServer,BEA-000365,STANDBYAdminServer,BEA-000365,RESUMINGAdminServer,BEA-000365,ADMINAdminServer,BEA-000331,STARTINGAdminServer,BEA-000365,STARTEDBEA-00Server,000365,UN-000365,UN-000365,000365, UN-000365, UN-000365,000365wlslog2.sta fil visas i figur 4. För att slå samman de två datafilerna, wlslog1.sta och wlslog2.sta klickar du på Data fliken och välj Slå samman , som visas i figur 4.
Figur 4: Datafil wlslog2.staA Sammanfogningsalternativ dialogrutan visas, som visas i figur 5. Variablerna fliken är vald som standard. Välj Läge som Sammanfoga . Klicka på Fil 1 knappen för att välja den 1 fil som ska sammanfogas.
Figur 5: SammanfogningsalternativVälj wlslog1.sta filen i Välj kalkylblad dialogruta (se figur 6). Klicka på OK . wlslog1.sta filen läggs till i Fil 1 fält. Välj på samma sätt filen 2 wlslog2.sta .
Figur 6: Välja ett kalkylblad som ska sammanfogasIngen annan konfiguration krävs. Som standard genereras ett utdatakalkylblad och det kan konfigureras med Alternativ fliken, som visas i figur 7. Behåll standardinställningarna för utdatakalkylarket.
Figur 7: Fliken AlternativDe två filerna som ska slås samman läggs till i Fil 1 och Fil 2 fält, som visas i figur 8. Standardinställningen för Omatchade fall fyller datafilerna med de saknade värdena, vilket innebär att tomma data lagras för avsnittet av en sammanfogad rad (case ) som inte matchar från en datafil till en annan. Klicka på OK .
Figur 8: Datafiler som ska sammanfogasDe två datafilerna sammanlänkas, som visas i figur 9. Det resulterande kalkylarket har 6 kolumner och 6 rader.
Figur 9: Resulterande kalkylblad efter en sammanslagningOm ett kalkylblad skulle ha fler rader än det andra, skulle de två kalkylarken bli sammanlänkade på samma sätt. Som ett exempel, lägg till en extra rad i kalkylarket 1 (wlslog1.sta ) för att skapa 7 rader, som visas i figur 10.
Figur 10: Extra rad i wlslog1.staNär den är sammanlänkad med kalkylarket 2 (wlslog2.sta ), har det resulterande kalkylarket en extra rad med saknade data för kolumnerna från kalkylarket 2 (se figur 11).
Figur 11: Sammanslagna kalkylbladSlutsats
I den här handledningen introducerade vi sammanslagna datafiler (även kallade kalkylblad) i Statistica Platform for data science. Vi diskuterade ett av sammanfogningslägena:Sammanfoga sammanfogning. I en efterföljande handledning kommer vi att diskutera sammanslagning genom att matcha fallnamn och genom att matcha variabler.