Skip to main content

Moving Gjennomsnittet Ssas


De fleste er kjent med uttrykket, citerer vil drepe to fugler med en stonequot. Hvis du ikke gjør det, refererer fasen til en tilnærming som adresserer to mål i en handling. (Dessverre er uttrykket i seg selv ganske ubehagelig, siden de fleste av oss ikke vil kaste stein på uskyldige dyr) I dag kommer jeg til å dekke noen grunnleggende om to gode funksjoner i SQL Server: Columnstore-indeksen (kun tilgjengelig i SQL Server Enterprise) og SQL Query Store. Microsoft implementerte faktisk Columnstore-indeksen i SQL 2012 Enterprise, selv om de har forbedret den i de to siste utgivelsene av SQL Server. Microsoft introduserte Query Store i SQL Server 2016. Så, hva er disse funksjonene og hvorfor er de viktige Vel, jeg har en demo som vil introdusere begge funksjonene og vise hvordan de kan hjelpe oss. Før jeg går videre, dekker jeg også dette (og andre SQL 2016-funksjoner) i min CODE Magazine-artikkel om nye funksjoner SQL 2016. Som en grunnleggende introduksjon kan Columnstore-indeksen bidra til å øke hastigheten på spørringer som skannegistrerer over store mengder data, og Query Store sporer forespørsler om henrettelser, utførelsesplaner og kjøretidsstatistikk som du vanligvis må samle inn manuelt. Stol på meg når jeg sier at disse er flotte funksjoner. For denne demoen skal jeg bruke demo-databasen til Microsoft Contoso Retail Data Warehouse. Løst snakkes Contoso DW som kvote virkelig stor AdventureWorksquot, med tabeller som inneholder millioner av rader. (Det største AdventureWorks-bordet inneholder omtrent 100 000 rader i det meste). Du kan laste ned Contoso DW-databasen her: microsoften-usdownloaddetails. aspxid18279. Contoso DW fungerer veldig bra når du vil teste ytelsen på spørsmål mot større bord. Contoso DW inneholder et standard datalager Fakta tabellen kalt FactOnLineSales, med 12,6 millioner rader. Det er absolutt ikke det største datalagertabellen i verden, men det er ikke barns spill heller. Anta at jeg vil oppsummere salgsbeløp for 2009, og rangere produktene. Jeg kan spørre faktabordet og bli med i produktdimensjonstabellen og bruke en RANK-funksjon, slik: Her er et delvis sett sett av de 10 øverste radene, av Total Sales. På min bærbare datamaskin (i7, 16 GB RAM) tar spørringen alt fra 3-4 sekunder til å kjøre. Det kan ikke virke som enden av verden, men enkelte brukere kan forvente umiddelbare resultater (slik du kan se umiddelbare resultater når du bruker Excel mot en OLAP-terning). Den eneste indeksen jeg har for øyeblikket på denne tabellen, er en klynget indeks på en salgsnøkkel. Hvis jeg ser på utførelsesplanen, gjør SQL Server et forslag om å legge til en dekselindeks i tabellen: Nå, bare fordi SQL Server antyder en indeks, betyr ikke at du blindt bør opprette indekser på hver kvoterende indexquot-melding. I dette tilfellet oppdager SQL Server imidlertid at vi filtrerer basert på år, og bruker produktnøkkelen og salgsbeløpet. Så foreslår SQL Server en dekselindeks, med DateKey som indeksnøkkelfelt. Årsaken til at vi kaller dette en quotcoveringquot-indeks er fordi SQL Server vil sitere langs den ikke-nøkkelfeltkvoten vi brukte i spørringen, citerer ridequot. På denne måten trenger ikke SQL Server å bruke tabellen eller den klyngede indeksen på alle databasemotorer kan bare bruke dekselindeksen for spørringen. Dekker indekser er populære i visse datalagring og rapportering av databasescenarier, selv om de kommer til en pris av databasemotoren som opprettholder dem. Merk: Omslagsindekser har eksistert lenge, så jeg har ennå ikke dekket Kolumnstore-indeksen og Query Store. Så vil jeg legge til dekselindeksen: Hvis jeg gjenoppretter det samme spørsmålet jeg kjørte for et øyeblikk siden (den som samlet salgsbeløpet for hvert produkt), synes spørringen noen ganger å kjøre om et sekund raskere, og jeg får en en annen utførelsesplan, en som bruker en indekssøk i stedet for en indekssøk (ved hjelp av datotasten på dekselindeksen for å hente salget for 2009). Så, før Columnstore Index, kan dette være en måte å optimalisere denne spørringen i mye eldre versjoner av SQL Server. Den går litt raskere enn den første, og jeg får en utførelsesplan med en indekssøk i stedet for en indekssøk. Imidlertid er det noen problemer: De to eksekveringsoperatørene quotIndex Seekquot og quotHash Match (Aggregate) citerer begge i hovedsak drift quote for rowquot. Tenk deg dette i et bord med hundrevis av millioner av rader. Relatert, tenk på innholdet i en faktabord: i dette tilfellet kan en enkelt nøkkelverdi og en enkelt produktnøkkelverdi gjentas over hundre tusenvis av rader (husk at faktabordet også har nøkler for geografi, markedsføring, salgsmann , etc.) Så når quotIndex Seekquot og quotHash Matchquot jobber rad for rad, gjør de så oververdier som kan gjentas over mange andre rader. Dette er normalt der jeg krysser til SQL Server Columnstore-indeksen, som gir et scenario for å forbedre ytelsen til denne spørringen på utrolige måter. Men før jeg gjør det, la vi gå tilbake i tid. La oss gå tilbake til år 2010, da Microsoft introduserte et tillegg for Excel kjent som PowerPivot. Mange husker sannsynligvis å se demo av PowerPivot for Excel, der en bruker kunne lese millioner av rader fra en ekstern datakilde til Excel. PowerPivot vil komprimere dataene, og gi en motor til å lage pivottabeller og pivotdiagrammer som utføres med fantastiske hastigheter mot komprimerte data. PowerPivot brukte en innebygd teknologi som Microsoft kalte quotVertiPaqquot. Denne minneteknologien i PowerPivot vil i utgangspunktet ta dupliserte nøkkelverdier for virksomhetsnøkkelknapper og komprimere dem ned til en enkelt vektor. In-memory-teknologien vil også scanaggregere disse verdiene parallelt, i blokker på flere hundre ad gangen. Den nederste linjen er at Microsoft bakte en stor mengde ytelsesforbedringer i VertiPaq-minnefunksjonen, slik at vi kan bruke det helt ut av den ordspråklige boksen. Hvorfor tar jeg denne lille spasertur ned minnekort Siden Microsoft i SQL Server 2012 implementerte en av de viktigste funksjonene i historien til databasemotoren: Columnstore-indeksen. Indeksen er egentlig bare en indeks i navn: det er en måte å ta et SQL Server-bord på og lage et komprimert kolonneforlag i minnet som komprimerer dupliserte utenlandske nøkkelverdier ned til enkeltvektverdier. Microsoft opprettet også et nytt bufferbasseng for å lese disse komprimerte vektorverdiene parallelt, noe som skaper potensialet for store ytelsesgevinster. Så, jeg kommer til å lage en kolonneindeks på bordet, og jeg vil se hvor mye bedre (og mer effektivt) spørringen går, i motsetning til spørringen som går mot dekselindeksen. Så, jeg vil lage en kopi av FactOnlineSales (I39ll call It FactOnlineSalesDetailNCCS), og jeg vil opprette en kolonnestatistikkindeks på duplikatbordet slik at jeg vil blande opp det opprinnelige bordet og dekselindeksen på noen måte. Deretter lager jeg en kolonneindeks på det nye bordet: Merk flere ting: Jeg har angitt flere utenlandske nøkkel kolonner, samt salgsbeløpet. Husk at en kolonnemarkedsindeks ikke er som en tradisjonell rade-indeks. Det er ingen quotkeyquot. Vi indikerer bare hvilke kolonner SQL Server skal komprimere og plassere i et kolonnekort i minnet. For å bruke analogien til PowerPivot for Excel når vi lager en kolonneforhandlerindeks, forteller vi at SQL Server skal gjøre det samme som PowerPivot gjorde da vi importerte 20 millioner rader til Excel ved hjelp av PowerPivot. Så, I39ll kjører spørringen igjen denne gangen det dupliserte FactOnlineSalesDetailNCCS-tabellen som inneholder kolonneforhandlingsindeksen. Denne spørringen kjører øyeblikkelig på mindre enn et sekund. Og jeg kan også si at selv om bordet hadde hundrevis av millioner av rader, ville det fortsatt kjøre på det ordspråklige sitatet på en øyenvippe. Vi kunne se på utførelsesplanen (og i noen få minutter vil vi), men nå er det på tide å dekke Query Store-funksjonen. Tenk deg et øyeblikk, at vi kjørte begge spørringene over natten: spørringen som brukte det vanlige FactOnlineSales-tabellen (med dekselindeksen) og deretter spørringen som brukte duplikatabellen med Columnstore-indeksen. Når vi logger på neste morgen, ønsker vi å se utførelsesplanen for begge spørringene som de skjedde, samt utførelsesstatistikken. Med andre ord, vi liker å se den samme statistikken som vi kunne se om vi kjørte begge spørsmålene interaktivt i SQL Management Studio, slått på TIME og IO Statistics, og så på utførelsesplanen umiddelbart etter at forespørselen ble utført. Vel, det er det som spørringsbutikken tillater oss å gjøre, vi kan slå på (aktivere) spørringslager for en database, noe som vil utløse SQL Server for å lagre søkekspedisjon og planlegge statistikk slik at vi kan se dem senere. Så, jeg kommer til å aktivere Query Store i Contoso-databasen med følgende kommando (og I39ll fjerner også eventuelt caching): Så kjører jeg de to spørringene (og quotequotot jeg kjørte dem for noen timer siden): La oss nå late som de kjørte timer siden. Ifølge det jeg sa, vil Query Store fange utførelsesstatistikken. Så hvordan ser jeg på dem Heldigvis er det ganske enkelt. Hvis jeg utvider Contoso DW-databasen, ser jeg en mappe med spørringslager. Query Store har enorm funksjonalitet, og jeg vil prøve å dekke mye av det i etterfølgende blogginnlegg. Men for øyeblikket vil jeg se utførelsesstatistikk for de to spørringene, og spesifikt undersøke eksekveringsoperatørene for kolonneforhandlingsindeksen. Så høyreklikker jeg på de beste ressursforbrukerne og kjører det alternativet. Det gir meg et diagram som det nedenfor, hvor jeg kan se eksekveringsvarighetstid (i millisekunder) for alle forespørsler som er utført. I dette tilfellet var spørring 1 spørringen mot det opprinnelige bordet med dekselindeksen, og spørring 2 var mot bordet med kolonneforhandlingsindeksen. Tallene ligger ikke i kolonnestatistikkindeksen bedre enn den opprinnelige bordbelegningsindeksen med en faktor på nesten 7 til 1. Jeg kan endre metriske for å se på minnekonsumt i stedet. Merk i så fall at spørring 2 (kolonneforlagsindekset spørringen) brukte mye mer minne. Dette demonstrerer tydelig hvorfor kolonneforhandlingsindeksen representerer quotin-memoryquot-teknologi. SQL Server laster inn hele kolonneforhandlingsindeksen i minnet, og bruker et helt annet buffertbasseng med forbedrede eksekveringsoperatører for å behandle indeksen. OK, så vi har noen grafer for å se utførelsesstatistikk, kan vi se eksekveringsplanen (og eksekveringsoperatørene) knyttet til hver utførelse Ja, vi kan Hvis du klikker på den vertikale linjen for spørringen som brukte kolonneforhandlingsindeksen, ser du kjøringen planlegg under. Det første vi ser er at SQL Server har utført en kolonnestedsindekssøk, og det representerte nesten 100 av kostnaden for spørringen. Du kan kanskje si, et øyeblikk, det første spørsmålet brukte en dekselindeks og utførte en indeks, så hvordan kan en kolonnekursindeks skje raskere? Det er et legitimt spørsmål, og heldigvis er det et svar. Selv når den første spørringen utførte en indekssøk, utførte den fortsatt kvote etter radikott. Hvis jeg legger musen over kolonnestedsindeks-skannoperatøren, ser jeg et verktøytips (som den nedenfor) med en viktig innstilling: Utførelsesmodusen er BATCH (i motsetning til ROW. Som er det vi hadde med det første spørsmålet ved hjelp av dekker indeksen). Den BATCH-modusen forteller oss at SQL Server behandler de komprimerte vektorene (for eventuelle utenlandske nøkkelverdier som dupliseres, for eksempel produktnøkkelen og dato-nøkkelen) i grupper på nesten 1000, parallelt. Så SQL Server er fortsatt i stand til å behandle kolonnestatistikkindeksen mye mer effektivt. I tillegg, hvis jeg legger musen over Hash Match (Aggregate) - oppgaven, ser jeg også at SQL Server samler inn kolonnemarkedsindeksen ved hjelp av Batch-modus (selv om operatøren selv representerer en så liten prosentandel av kostnaden for spørringen) kan spørre, quotOK, så SQL Server komprimerer verdiene i dataene, behandler verdiene som vektorer, og leser dem i blokker med nesten tusen verdier parallelt, men spørringen min bare ønsket data for 2009. Så er SQL Server-skanning over hele settet med dataquot igjen, et godt spørsmål. Svaret er, quote Ikke virkelig. Heldigvis for oss utfører den nye kolonnestørrelsen indeksbufferbasseng en annen funksjon kalt quotsegment eliminationquot. I utgangspunktet vil SQL Server undersøke vektorverdiene for dato-nøkkelkolonnen i kolonnestatistikkindeksen, og eliminere segmenter som er utenfor omfanget av året 2009. Jeg stopper her. I etterfølgende blogginnlegg dekker jeg39ll både kolonnestedsindeksen og Query Store mer detaljert. I hovedsak er det vi har sett her i dag at Columnstore-indeksen kan øke hastigheten på spørringer som skannerer over store mengder data, og Query Store vil fange spørsmålstiltak og la oss undersøke utførelses - og resultatstatistikk senere. Til slutt vil vi gjerne produsere et resultatsett som viser følgende. Legg merke til tre ting: Kolonnene svinger i det vesentlige alle mulige returårsaker, etter å ha vist salgsbeløpet Resultatsettet inneholder subtotaler ved uken slutter (søndag) dato over alle klienter (der klienten er null) Resultatet sett inneholder en total sum rad (hvor klient og dato er begge null) Først, før jeg kommer inn i SQL-enden, kunne vi bruke den dynamiske pivotmatrix-funksjonen i SSRS. Vi ville bare måtte kombinere de to resultatene med en kolonne, og da kunne vi mate resultatene til SSRS-matrisekontrollen, som vil spre returårsakene over kolonnens akse i rapporten. Men ikke alle bruker SSRS (selv om de fleste burde). Men selv da, må utviklere noen ganger forbruke resultatsett i noe annet enn et rapporteringsverktøy. Så for dette eksempelet, antar vi at vi ønsker å generere resultatsettet for en nettrutenett, og evt. Utvikleren ønsker å quotustrip outquot de subtotale radene (hvor jeg har en ResultatSetNum-verdi på 2 og 3) og plasser dem i et oppsummeringsnett. Så bunnlinjen, vi trenger å generere utgangen over direkte fra en lagret prosedyre. Og som en ekstra vri neste uke kan det være returårsak X og Y og Z. Så vi vet ikke hvor mange tilbakemeldinger det kan være. Vi ønsker enkelt at spørringen skal svinge på de mulige forskjellige verdiene for returårsak. Her er hvor T-SQL PIVOT har en begrensning vi trenger for å gi den mulige verdier. Siden vi vant vet at inntil løpstid, må vi generere spørringsstrengen dynamisk ved hjelp av det dynamiske SQL-mønsteret. Det dynamiske SQL-mønsteret innebærer å generere syntaksen, stykke for hverandre, lagre den i en streng, og deretter utføre strengen på slutten. Dynamisk SQL kan være vanskelig, da vi må legge inn syntaks i en streng. Men i dette tilfellet er det vårt eneste sanne alternativ hvis vi ønsker å håndtere et variert antall returårsaker. Jeg har alltid funnet ut at den beste måten å skape en dynamisk SQL-løsning på, er å finne ut hva quote-quotet genererte spørringen ville være på slutten (i dette tilfellet, gitt Return grunnene vi vet om).og deretter reversere det ved å kutte det sammen en del om gangen. Og så, her er SQL-en som vi trenger hvis vi visste at disse returgrunnene (A through D) var statiske og ikke ville endre seg. Spørringen gjør følgende: Kombinerer dataene fra SalesData med dataene fra ReturnData, der vi quothard-wirequot ordet Salg som en handlingstype danner salgstabellen, og deretter bruker du tilbakemelding fra Return Data til samme ActionType-kolonne. Det vil gi oss en ren ActionType-kolonne som kan pivotere. Vi kombinerer de to SELECT-setningene til et felles tabelluttrykk (CTE), som i utgangspunktet er en avledet tabellundersøkelse som vi senere bruker i neste setning (til PIVOT) En PIVOT-setning mot CTE, som summerer dollarene for Action Type å være i en av de mulige Action Type-verdiene. Merk at dette er det siste resultatsettet. Vi legger dette inn i en CTE som leser fra den første CTE. Årsaken til dette er fordi vi vil gjøre flere grupperinger på slutten. Den endelige SELECT-setningen, som leser fra PIVOTCTE, og kombinerer den med en etterfølgende spørring mot samme PIVOTCTE, men hvor vi også implementerer to grupperinger i funksjonen GROUPING SETS i SQL 2008: GROUPING etter ukenes sluttdato (dbo. WeekEndingDate) GRUPPERING for alle rader () Så hvis vi visste med sikkerhet at vi aldri hadde flere returårsaker, så ville det være løsningen. Imidlertid må vi ta hensyn til andre årsakskoder. Så vi må generere hele spørringen ovenfor som en stor streng der vi bygger de mulige returårsakene som en kommaseparert liste. Jeg kommer til å vise hele T-SQL-koden for å generere (og utføre) det ønskede spørsmålet. Og så bryter jeg det ut i deler og forklarer hvert trinn. Så først, her er hele koden for å dynamisk generere det jeg har fått over. Det er i utgangspunktet fem trinn vi må dekke. Trinn 1 . Vi vet at et sted i blandingen må vi generere en streng for dette i spørringen: SalesAmount, Årsak A, Årsak B, Årsak C, Årsak D0160016001600160 Det vi kan gjøre er å bygge et midlertidig felles borduttrykk som kombinerer det hardt kablede quotSales Amountquot kolonne med den unike listen over mulige grunnkoder. Når vi har det i en CTE, kan vi bruke det fine, lette trikset FOR FORMAT PATH (3939) for å kollapse disse radene i en enkelt streng, legg et komma foran hver rad som spørringen leser, og bruk deretter STUFF til å erstatte Første forekomst av et komma med tomt rom. Dette er et triks som du kan finne i hundrevis av SQL-blogger. Så denne første delen bygger en streng kalt ActionString som vi kan bruke lenger ned. Steg 2 . Vi vet også at vi vil SUM de genererte pivoted årsakskolonnene, sammen med standard salgskolonnen. Så vi trenger en separat streng for det, som jeg vil ringe SUMSTRING. I39ll bruker bare den opprinnelige ActionString, og erstatt deretter de ytre parentesene med SUM-syntaks, pluss originale braketter. Trinn 3: Nå begynner det virkelige arbeidet. Ved å bruke det opprinnelige spørsmålet som en modell, ønsker vi å generere det opprinnelige spørsmålet (begynner med UNION av de to tabellene), men erstatter eventuelle referanser til svingte kolonner med strenger vi dynamisk generert ovenfor. Også, mens det ikke er absolutt nødvendig, har jeg også opprettet en variabel til bare noen vognreturneringsmatematkombinasjoner som vi vil legge inn i det genererte spørsmålet (for lesbarhet). Så vi vil konstruere hele spørringen til en variabel som heter SQLPivotQuery. Trinn 4. Vi fortsetter å konstruere spørringen igjen, sammenføyning av syntaksen vi kan quothard-wirequot med ActionSelectString (som vi genererte dynamisk for å holde alle mulige returårsverdier). Trinn 5. Endelig vil vi generere den siste delen av Pivot Query, som leser fra 2: e felles tabelluttrykk (PIVOTCTE, fra modellen ovenfor) og genererer den endelige SELECT å lese fra PIVOTCTE og kombinere den med en andre leser mot PIVOTCTE til implementer gruppesettene. Til slutt kan vi quotexecutequot strengen ved hjelp av SQL-systemet lagret proc spexecuteSQL Så forhåpentligvis kan du se at prosessen for å følge for denne typen innsats, er å avgjøre hva den endelige spørringen ville være, basert på ditt nåværende sett med data og verdier (dvs. bygget en spørringsmodell) Skriv den nødvendige T-SQL-koden for å generere forespørselsmodellen som en streng. Kanskje den viktigste delen er å bestemme det unike settet av verdier som du vil PIVOT, og deretter kollapse dem i en streng ved hjelp av STUFF-funksjonen og FOR XML PATH (3939) triks Så hva skjer i dag Vel, minst 13 elementer To somre siden skrev jeg et utkast til BDR som fokuserte (delvis) på rollen som utdanning og verdien av en god liberal kunstbakgrunn, ikke bare for programvarebransjen, men også for andre næringer. Et av temaene til denne spesielle BDR understreket et sentralt og opplyst synspunkt fra den anerkjente programarkitekten Allen Holub angående liberal kunst. Jeg forklarer sannelig hans budskap: Han utheste parallellene mellom programmering og studere historie ved å minne alle om at historien leser og skriver (og jeg legger til, identifiserer mønstre), og programvareutvikling leser og skriver også (og igjen, identifiserer mønstre ). Og så skrev jeg et meningsstykke som fokuserte på dette og andre relaterte emner. Men til i dag har jeg aldri kommet rundt for å enten publisere det. Hvert så ofte Id tenker på å revidere det, og Id setter seg selv ned i noen minutter og gjør noen tilpasninger til det. Men da ville livet generelt komme seg og Id aldri fullføre det. Så hva forandret For noen uker siden skrev kollega CoDe Magazine-kolonne og industrileder Ted Neward et stykke i sin vanlige kolonne, Managed Coder, som fikk oppmerksomheten min. Tittelen på artikkelen er On Liberal Arts. og jeg anbefaler at alle leser det. Ted diskuterer verdien av en liberal arts bakgrunn, den falske dikotomi mellom en liberal arts bakgrunn og suksess i programvareutvikling, og behovet for å skrive godt. Han snakker om noen av sine tidligere møter med HR-personaleledelse om hans pedagogiske bakgrunn. Han understreker også behovet for å godta og tilpasse seg endringer i vår bransje, samt kjennetegnene til en vellykket programvareprofessor (å være pålitelig, planlegge fremover og lære å komme forbi den første konflikten med andre lagmedlemmer). Så det er en god les, og det er Teds andre CoDe-artikler og blogginnlegg. Det fikk meg også tilbake til å tenke på mine synspunkter på dette (og andre emner) også, og til slutt motiverte meg til å fullføre mitt eget redaksjonelt. Så, bedre sent enn aldri, her er mitt nåværende Bakers Dozen of Reflections: Jeg sier: Vann fryser ved 32 grader. Hvis du er i en treningsopplæringsrolle, tror du kanskje du gjør alt i verden for å hjelpe noen når de faktisk føler seg en temperatur på 34 grader, og derfor er det ikke noe som gjør det sterkere for dem. Noen ganger tar det bare litt mer innsats eller en annen ideakemisk katalysator eller et nytt perspektiv, noe som betyr at de med tidligere utdanning kan trekke på forskjellige kilder. Vannet fryser ved 32 grader. Noen mennesker kan opprettholde høye konsentrasjoner selv med et rom fullt av støyende mennesker. Jeg er ikke en av dem noen ganger, jeg trenger litt privatliv for å tenke gjennom et kritisk problem. Noen beskriver dette som du må lære å gå bort fra det. Oppgitt på en annen måte, det er et søk etter den sjeldne luften. Denne uken tilbrakte jeg timer i halvt opplyst, stille rom med whiteboard, til jeg forsto et problem fullt ut. Det var først da jeg kunne snakke med andre utviklere om en løsning. Meldingen her er ikke å forkynne hvordan du skal gå om din virksomhet med å løse problemer, men heller for alle å kjenne deres styrker og hva som fungerer, og bruke dem til din fordel så mye som mulig. Noen setninger er som negler på en tavle for meg. Bruk det som et undervisningsmoment er en. (Hvorfor er det som negler på en tavle? For hvis du er en mentorroll, bør du vanligvis være i undervisningsmodus uansett, men subtilt). Heres en annen jeg kan ikke virkelig forklare det med ord, men jeg forstår det. Dette kan høres litt kaldt, men hvis en person virkelig ikke kan forklare noe i ord, kan de kanskje ikke forstå det. Jo, en person kan ha en fuzzy følelse av hvordan noe fungerer. Jeg kan bløffe meg gjennom å beskrive hvordan et digitalkamera fungerer, men sannheten er at jeg ikke forstår det så bra. Det er et fagområde som kalles epistemologi (studiet av kunnskap). En av de grunnleggende grunnlagene for å forstå om det er et kamera eller et mønster - er evnen til å etablere sammenheng, å identifisere kjeden av relaterte hendelser, egenskapene til noen komponenter underveis, etc. Ja, forståelse er noen ganger veldig hardt arbeid , men å dykke inn i et emne og bryte det fra hverandre er verdt innsatsen. Selv de som unngår sertifisering, vil erkjenne at prosessen med å studere for sertifiseringstester vil bidra til å fylle hull i kunnskap. En databasesjef er mer sannsynlig å ansette en databaseutvikler som kan snakke ekstremt (og uten problemer) om transaksjonsisolasjonsnivåer og utløsere, i motsetning til noen som vet om det, men sliter med å beskrive bruken av dem. Det er en annen konsekvens her. Ted Neward anbefaler at utviklere tar opp offentlige taler, blogger osv. Jeg er enig i 100. Prosessen med taler og blogging vil praktisk tvinge deg til å begynne å tenke på emner og bryte ned definisjoner som du kanskje ellers hadde tatt for gitt. For noen år siden trodde jeg at jeg forsto T-SQL MERGE-setningen ganske bra. Men først etter å ha skrevet om det og snakket om å sette spørsmål fra andre som hadde perspektiver som aldri skjedde for meg at forståelsesnivået mitt økte eksponentielt. Jeg kjenner en historie om en ansatt leder som en gang intervjuet en forfatterutvikler for en kontraktsposisjon. Ansatteforvalteren var forakt av publikasjoner generelt, og barket på søkeren. Så hvis du skal jobbe her, vil du helst skrive bøker eller skrive kode Ja, jeg gir det i noen bransjer vil det være noen rene akademikere. Men det som ansette lederen savnet var mulighetene for å styrke og skarpe ferdighetssett. Mens jeg rydde ut en gammel boks bok, kom jeg over en skatt fra 1980-tallet: Programmerere på jobb. som inneholder intervjuer med en veldig ung Bill Gates, Ray Ozzie, og andre kjente navn. Hvert intervju og hvert innsikt er verdt prisen på boken. Etter min mening var det mest interessante intervjuet med Butler Lampson. som ga noen kraftige råd. Til helvete med datakompetanse. Det er helt latterlig. Studer matematikk. Lær å tenke. Lese. Skrive. Disse tingene er av mer varig verdi. Lær hvordan å bevise teoremer: Mange bevis har samlet seg gjennom århundrene som tyder på at denne ferdigheten er overførbar til mange andre ting. Butler snakker sannheten. Jeg legger til det punktet lære å spille djevler talsmann mot deg selv. Jo mer du kan virkelighet - sjekk dine egne prosesser og arbeid, desto bedre blir du. Den store datateknikerautor Allen Holub lagde sammenhengen mellom programvareutvikling og liberal kunst spesielt, temaet i historien. Her var hans poeng: hva er historie Lesing og skriving. Hva er programvareutvikling Blant annet lesing og skriving. Jeg pleide å gi studentene mine T-SQL essay spørsmål som praksis tester. En student snakket med at jeg handlet mer som en lovprofessor. Vel, akkurat som treneren Donny Haskins sa i filmen Glory Road, min vei er vanskelig. Jeg tror fast på et sterkt intellektuelt grunnlag for ethvert yrke. Akkurat som applikasjoner kan ha fordel av rammebetingelser, kan enkeltpersoner og deres tankeprosesser også dra nytte av menneskelige rammer. Det er det grunnleggende grunnlaget for stipend. Det er en historie som på 1970-tallet utvidet IBM sin rekrutteringsinnsats i de store universitetene ved å fokusere på de beste og lysteste av liberale kunsteksamenere. Selv da innså de at de beste leserne og forfatterne en dag kunne bli sterke programmeringssystemanalytikere. (Ta gjerne den historien til en hvilken som helst HR-type som insisterer på at en kandidat må ha en datavitenskapelig grad) Og snakker om historie: Hvis det ikke er noe annet, er det viktig å huske historien om produktutgivelser hvis jeg jobber på en klientsted som fortsatt bruker SQL Server 2008 eller til og med (gisp) SQL Server 2005, må jeg huske hvilke funksjoner som ble implementert i versjonene over tid. Har noen gang en favoritt lege som du likte fordi heshe forklarte ting i vanlig engelsk, ga deg den rette sannheten, og tjente din tillit til å operere på deg. Det er gale ferdigheter. og er resultatet av erfaring og hardt arbeid som tar år og til og med flere tiår å dyrke. Det er ingen garantier for jobbsuccess fokus på fakta, ta noen beregnede risikoer når du er sikker på at du kan se deg til målstreken, la sjetongene falle hvor de kan, og aldri miste det som å være akkurat som den legen som har tjent din tillit Selv om noen dager jeg går kort, prøver jeg å behandle klienten min og deres data som en lege ville behandle pasienter. Selv om en lege gir mer penger, er det mange clicher jeg avskyder, men heres jeg ikke hater: Det er ikke noe slikt som et dårlig spørsmål. Som en tidligere instruktør hørte en ting som tok min øre, høre noen kritisere en annen person for å spørre et antatt, dumt spørsmål. Et spørsmål indikerer at en person erkjenner at de har litt gap i kunnskapen de ser for å fylle. Ja, noen spørsmål er bedre formulert enn andre, og noen spørsmål krever ytterligere innramming før de kan besvares. Men reisen fra å stille et spørsmål til et svar er sannsynligvis å generere en aktiv mental prosess i andre. Det er alle gode ting. Mange gode og fruktbare diskusjoner stammer fra et dumt spørsmål. Jeg jobber over hele linjen i SSIS, SSAS, SSRS, MDX, PPS, SharePoint, Power BI, DAX alle verktøyene i Microsoft BI-stakken. Jeg skriver fremdeles noen kode fra tid til annen. Men gjett hva jeg fremdeles bruker så mye tid på å skrive T-SQL-kode til profildata som en del av oppdagingsprosessen. Alle applikasjonsutviklere bør ha gode T-SQL-koteletter. Ted Neward skriver (riktig) om behovet for å tilpasse seg teknologiendringer. Jeg legger til at behovet for å tilpasse seg klientemployerendringer. Bedrifter endrer forretningsregler. Selskaper erverver andre selskaper (eller blir mål for oppkjøp). Bedrifter gjør feil i å kommunisere forretningsbehov og spesifikasjoner. Ja, vi kan noen ganger spille en rolle i å hjelpe til med å håndtere disse endringene, og noen ganger var fly, ikke frontruten. Disse forårsaker noen ganger stor smerte for alle, spesielt I. T. mennesker. Det er derfor begrepet livssituasjon eksisterer, vi må takle det. Akkurat som ingen utvikler skriver feilkode hver gang, ingen I. T. Personen har det bra med endringer hver eneste gang. En av de største kampene Ive hadde i mine 28 år i denne bransjen, viser tålmodighet og selvbeherskelse når endringer flyr fra mange forskjellige retninger. Her er hvor mitt forrige forslag om å søke etter rarified luften kan hjelpe. Hvis du klarer å assimilere endringer i tankeprosessen din, og uten å føle deg overveldet, vil odds være en betydelig ressurs. I de siste 15 månedene måtte jeg håndtere en enorm profesjonell forandring. Det har vært svært vanskelig til tider, men jeg har bestemt at endringen vil være normen, og jeg har forsøkt å tilpasse mine egne vaner så godt jeg kan for å takle hyppig (og usikker) endring. Det er vanskelig, veldig vanskelig. Men som coach Jimmy Duggan sa i filmen A League of Their Own: Selvfølgelig er det vanskelig. Hvis det ikke var vanskelig, ville alle gjøre det. Det harde, er det som gjør det bra. En kraftig melding. Det har vært snakk i bransjen de siste årene om oppførsel på profesjonelle konferanser (og oppførsel i bransjen som helhet). Mange respekterte forfattere har skrevet veldig gode redaktører om emnet. Heres mitt innspill, for hva det er verdt. Its a message to those individuals who have chosen to behave badly: Dude, it shouldnt be that hard to behave like an adult. A few years ago, CoDe Magazine Chief Editor Rod Paddock made some great points in an editorial about Codes of Conduct at conferences. Its definitely unfortunate to have to remind people of what they should expect out of themselves. But the problems go deeper. A few years ago I sat on a five-person panel (3 women, 2 men) at a community event on Women in Technology. The other male stated that men succeed in this industry because the Y chromosome gives men an advantage in areas of performance. The individual who made these remarks is a highly respected technology expert, and not some bozo making dongle remarks at a conference or sponsoring a programming contest where first prize is a date with a bikini model. Our world is becoming increasingly polarized (just watch the news for five minutes), sadly with emotion often winning over reason. Even in our industry, recently I heard someone in a position of responsibility bash software tool XYZ based on a ridiculous premise and then give false praise to a competing tool. So many opinions, so many arguments, but heres the key: before taking a stand, do your homework and get the facts . Sometimes both sides are partly rightor wrong. Theres only one way to determine: get the facts. As Robert Heinlein wrote, Facts are your single clue get the facts Of course, once you get the facts, the next step is to express them in a meaningful and even compelling way. Theres nothing wrong with using some emotion in an intellectual debate but it IS wrong to replace an intellectual debate with emotion and false agenda. A while back I faced resistance to SQL Server Analysis Services from someone who claimed the tool couldnt do feature XYZ. The specifics of XYZ dont matter here. I spent about two hours that evening working up a demo to cogently demonstrate the original claim was false. In that example, it worked. I cant swear it will always work, but to me thats the only way. Im old enough to remember life at a teen in the 1970s. Back then, when a person lost hisher job, (often) it was because the person just wasnt cutting the mustard. Fast-forward to today: a sad fact of life is that even talented people are now losing their jobs because of the changing economic conditions. Theres never a full-proof method for immunity, but now more than ever its critical to provide a high level of what I call the Three Vs (value, versatility, and velocity) for your employerclients. I might not always like working weekends or very late at night to do the proverbial work of two people but then I remember there are folks out there who would give anything to be working at 1 AM at night to feed their families and pay their bills. Always be yourselfyour BEST self. Some people need inspiration from time to time. Heres mine: the great sports movie, Glory Road. If youve never watched it, and even if youre not a sports fan I can almost guarantee youll be moved like never before. And Ill close with this. If you need some major motivation, Ill refer to a story from 2006. Jason McElwain, a high school student with autism, came off the bench to score twenty points in a high school basketball game in Rochester New York. Heres a great YouTube video. His mother said it all . This is the first moment Jason has ever succeeded and is proud of himself. I look at autism as the Berlin Wall. He cracked it. To anyone who wanted to attend my session at todays SQL Saturday event in DC I apologize that the session had to be cancelled. I hate to make excuses, but a combination of getting back late from Detroit (client trip), a car thats dead (blown head gasket), and some sudden health issues with my wife have made it impossible for me to attend. Back in August, I did the same session (ColumnStore Index) for PASS as a webinar. You can go to this link to access the video (itll be streamed, as all PASS videos are streamed) The link does require that you fill out your name and email address, but thats it. And then you can watch the video. Feel free to contact me if you have questions, at kgoffkevinsgoff November 15, 2013 Getting started with Windows Azure and creating SQL Databases in the cloud can be a bit daunting, especially if youve never tried out any of Microsofts cloud offerings. Fortunately, Ive created a webcast to help people get started. This is an absolute beginners guide to creating SQL Databases under Windows Azure. It assumes zero prior knowledge of Azure. You can go to the BDBI Webcasts of this website and check out my webcast (dated 11102013). Or you can just download the webcast videos right here: here is part 1 and here is part 2. You can also download the slide deck here. November 03, 2013 Topic this week: SQL Server Snapshot Isolation Levels, added in SQL Server 2005. To this day, there are still many SQL developers, many good SQL developers who either arent aware of this feature, or havent had time to look at it. Hopefully this information will help. Companion webcast will be uploaded in the next day look for it in the BDBI Webcasts section of this blog. October 26, 2013 Im going to start a weekly post of T-SQL tips, covering many different versions of SQL Server over the years Heres a challenge many developers face. Ill whittle it down to a very simple example, but one where the pattern applies to many situations. Suppose you have a stored procedure that receives a single vendor ID and updates the freight for all orders with that vendor id. create procedure dbo. UpdateVendorOrders update Purchasing. PurchaseOrderHeader set Freight Freight 1 where VendorID VendorID Now, suppose we need to run this for a set of vendor IDs. Today we might run it for three vendors, tomorrow for five vendors, the next day for 100 vendors. We want to pass in the vendor IDs. If youve worked with SQL Server, you can probably guess where Im going with this. The big question is how do we pass a variable number of Vendor IDs Or, stated more generally, how do we pass an array, or a table of keys, to a procedure Something along the lines of exec dbo. UpdateVendorOrders SomeListOfVendors Over the years, developers have come up with different methods: Going all the way back to SQL Server 2000, developers might create a comma-separated list of vendor keys, and pass the CSV list as a varchar to the procedure. The procedure would shred the CSV varchar variable into a table variable and then join the PurchaseOrderHeader table to that table variable (to update the Freight for just those vendors in the table). I wrote about this in CoDe Magazine back in early 2005 (code-magazinearticleprint. aspxquickid0503071ampprintmodetrue. Tip 3) In SQL Server 2005, you could actually create an XML string of the vendor IDs, pass the XML string to the procedure, and then use XQUERY to shred the XML as a table variable. I also wrote about this in CoDe Magazine back in 2007 (code-magazinearticleprint. aspxquickid0703041ampprintmodetrue. Tip 12)Also, some developers will populate a temp table ahead of time, and then reference the temp table inside the procedure. All of these certainly work, and developers have had to use these techniques before because for years there was NO WAY to directly pass a table to a SQL Server stored procedure. Until SQL Server 2008 when Microsoft implemented the table type. This FINALLY allowed developers to pass an actual table of rows to a stored procedure. Now, it does require a few steps. We cant just pass any old table to a procedure. It has to be a pre-defined type (a template). So lets suppose we always want to pass a set of integer keys to different procedures. One day it might be a list of vendor keys. Next day it might be a list of customer keys. So we can create a generic table type of keys, one that can be instantiated for customer keys, vendor keys, etc. CREATE TYPE IntKeysTT AS TABLE ( IntKey int NOT NULL ) So Ive created a Table Typecalled IntKeysTT . Its defined to have one column an IntKey. Nowsuppose I want to load it with Vendors who have a Credit Rating of 1..and then take that list of Vendor keys and pass it to a procedure: DECLARE VendorList IntKeysTT INSERT INTO VendorList SELECT BusinessEntityID from Purchasing. Vendor WHERE CreditRating 1 So, I now have a table type variable not just any table variable, but a table type variable (that I populated the same way I would populate a normal table variable). Its in server memory (unless it needs to spill to tempDB) and is therefore private to the connectionprocess. OK, can I pass it to the stored procedure now Well, not yet we need to modify the procedure to receive a table type. Heres the code: create procedure dbo. UpdateVendorOrdersFromTT IntKeysTT IntKeysTT READONLY update Purchasing. PurchaseOrderHeader set Freight Freight 1 FROM Purchasing. PurchaseOrderHeader JOIN IntKeysTT TempVendorList ON PurchaseOrderHeader. VendorID Te mpVendorList. IntKey Notice how the procedure receives the IntKeysTT table type as a Table Type (again, not just a regular table, but a table type). It also receives it as a READONLY parameter. You CANNOT modify the contents of this table type inside the procedure. Usually you wont want to you simply want to read from it. Well, now you can reference the table type as a parameter and then utilize it in the JOIN statement, as you would any other table variable. Så der har du det. A bit of work to set up the table type, but in my view, definitely worth it. Additionally, if you pass values from , youre in luck. You can pass an ADO data table (with the same tablename property as the name of the Table Type) to the procedure. For developers who have had to pass CSV lists, XML strings, etc. to a procedure in the past, this is a huge benefit. Finally I want to talk about another approach people have used over the years. SQL Server Cursors. At the risk of sounding dogmatic, I strongly advise against Cursors, unless there is just no other way. Cursors are expensive operations in the server, For instance, someone might use a cursor approach and implement the solution this way: DECLARE VendorID int DECLARE dbcursor CURSOR FASTFORWARD FOR SELECT BusinessEntityID from Purchasing. Vendor where CreditRating 1 FETCH NEXT FROM dbcursor INTO VendorID WHILE FETCHSTATUS 0 EXEC dbo. UpdateVendorOrders VendorID FETCH NEXT FROM dbcursor INTO VendorID The best thing Ill say about this is that it works. And yes, getting something to work is a milestone. But getting something to work and getting something to work acceptably are two different things. Even if this process only takes 5-10 seconds to run, in those 5-10 seconds the cursor utilizes SQL Server resources quite heavily. Thats not a good idea in a large production environment. Additionally, the more the of rows in the cursor to fetch and the more the number of executions of the procedure, the slower it will be. When I ran both processes (the cursor approach and then the table type approach) against a small sampling of vendors (5 vendors), the processing times where 260 ms and 60 ms, respectively. So the table type approach was roughly 4 times faster. But then when I ran the 2 scenarios against a much larger of vendors (84 vendors), the different was staggering 6701 ms versus 207 ms, respectively. So the table type approach was roughly 32 times faster. Again, the CURSOR approach is definitely the least attractive approach. Even in SQL Server 2005, it would have been better to create a CSV list or an XML string (providing the number of keys could be stored in a scalar variable). But now that there is a Table Type feature in SQL Server 2008, you can achieve the objective with a feature thats more closely modeled to the way developers are thinking specifically, how do we pass a table to a procedure Now we have an answer Hope you find this feature help. Feel free to post a comment. SQL Server 2012 Analysis Services (SSAS) DMVs By: Scott Murray Read Comments (6) Related Tips: Analysis Services Administration What are the SQL Server Analysis Services (SSAS) 2012 DMVs and how can they be used In my previous tip on XMLA both the Execute and Discover methods were discussed in context of running XMLA queries. The discover method exposes metadata about a SSAS database however the data is returned in XML form. As an alternative to the discover method, SSAS provides a group of dynamic management views (DMVs for short) which can be queried to return the same data as the discover method. However, by using these DMVs, the data is returned in a tabular format which is generally easier to read and use as a basis for reports. The queries are DMX, but they have the look and feel of SQL with some caveats. The DMVs can be broken up into two main categories: the DBSCHEMAMDSCHEMA DMVs which retrieve metadata about the SSAS database, such as cube structure and dimension structure and the Discover DMVs which retrieve monitoring data such a current connections and locks. SSAS MDSCHEMA and DBSCHEMA DMVs The SSAS DMVs act in many ways like regular SQL DMVs and return data in a table format, at least in most cases. The information that can be queried covers everything from the connections that are currently active to the amount of memory being used to what dimensions are part of the cube. Furthermore, you can even query a dimension to get its members. Even though the queries are SQL-like, you can not use the following: Last, and probably equally important, in order to run queries against the SSAS database, system administrator permissions are required. The best way to show what the views can do is to review several number of examples which will in turn convey the limitations that come into play with several of the DMVs. Probably the best place to start is with a query to get a list of the DMVs available to query. The below MDX queries will display the list of views which can be queried. Note that the word views is used very loosely as these DMVs are SQL-like but not pure SQL. In order to run these queries, open SSMS and connect to your SSAS database as displayed below. For our examples we will be using the AdventureWorks 2012 DataWarehouse sample database available on CodePlex, msftdbprodsamples. codeplexreleasesview55330. Be sure to select the AdventureWorksDW2012 database and verify the query type is set to MDX. If MDX is not selected, you can set the query type by clicking on the MDX button in the tool bar. The query results are partially displayed in the below screen print. This table list is roughly equivalent to the DMVs that are available to query against the SSAS database. For details on each of these row sets, MSDN has a DMV reference sheet available at: msdn. microsoften-uslibraryhh230820.aspxbkmkref. Next, we can run the following query to get a list of cubes in a particular database. Of course there are a few caveats with the query results shown below. First you will notice that only two cubes are displayed in the objective explorer (left side of above screen print), while the query results show seven rows. The reason for this discrepancy is that the results include Perspectives in addition to the regular cubes. Thus, a simple way to return just the cubes and not the perspectives is to adjust our query as shown in the next illustration. In this case, the criteria in the where clause is a bit of cheat in that it looks for a blank value for the BaseCubeName by using the less than operator. Next we can get a list of dimensions using the MDSCHEMADIMENSIONS DMV. Of course a few caveats exists with the query results shown below. The dimensions are listed multiple times for instance, the Account dimension is listed seven times. One dimension exists for each cube measure group additionally, one dimension, the one whose cube name begins with the is the cube level dimension. Furthermore, the dimension caption displays the name that the end users see. Drilling into the dimension, we can next use the MDSCHEMAMEASUREGROUPDIMENSIONS DMV, as displayed below. This DMV breaks out the dimensions at the measure group granularity level. Notice that I have included two items in the Order By clause. Unfortunately, including more than one item in the order clause is not supported and produces the following error. Using just one order by field and adding the cube name to the where clause produces better results which are illustrated below. Again, notice we have duplicates as we did before with the MDSCHEMADIMENSIONS DMV. Before moving on to some of the monitoring DMVs, lets review the measure MDSCHEMAMEASURES DMV. As illustrated below, in addition to the normal name and visibility information available from the dimension DMVs, the MDSCHEMAMEASURES DMV conveys the format used for the measure and the aggregation method, which tells how to aggregate the measure such as Sum, Average, or Custom (see msdn. microsoften-uslibraryms126250.aspx ). The DMV also displays the formula used in a calculated measure in the Expression field which is helpful when checking multiple calculated values at one time non calculated measure have no data in the expression field. SSAS Discover DMVs The SSAS Discover DMVs retrieve data used to monitor a SSAS database. Some data points that can be retrieved include the query execution times, current locks, CPU and memory usage, and current connections. We will start with the DISCOVERCONNECTIONS DMV. This DMV provides us with a wealth of details about the current sessions including the Last Command to be run, how long the command took to run, how much memory the session used, and how many reads and writes were used. This DISCOVERCOMMANDS DMV provides us with similar information at the command level. You will also notice that you can do a Select to retrieve all columns from the DMV however, just as with other select statements, I would recommend only retrieving the columns needed. Some of the Discover DMVs require the use of SYSTEMRESTRICTSCHEMA and also require passing in additional parameters. In essence, this means that instead of writing a select directly against the DMV, we query the SYSTEMRESTRICTSCHEMA and then specify the DMV and any other parameters required when writing the query. For example, the below query integrates the DISCOVERINSTANCES DMV. In this case, only one parameter is required, INSTANCENAME. Notice how the from uses the SYSTEMRESTRICTSCHMEA. The DISCOVERINSTANCES DMV returns the following data about the instance. Using the SYSTEM. DBSCHEMATABLES DMV, you can explore many of the other Discover SSAS DMVs. Conclusion Using the SSAS DMVs can return a plethora of information about a SSAS cubes metadata and a cubes current state, from a monitoring standpoint. These DMVs are easier to use than XMLA related queries as the data is returned in tabular format and the queries are written, in most cases, in a SQL-like manner. The results, depending on the DMV, can provide much of the information needed for a SSAS administrator to profile and monitor the SSAS cubes. Next Steps Last Update: 7262013Using DAX to retrieve tabular data Robert Sheldon In my last article, 8220Getting Started with the SSAS Tabular Model ,8221 I introduced you to the SQL Server Analysis Services (SSAS) tabular database and how to access its components in SQL Server Management Studio (SSMS). This article continues that discussion by demonstrating how to use the Data Analysis Expressions (DAX) language to retrieve data from your tabular database. DAX has a rather unique history in that it8217s a formula language with its roots in PowerPivot, an in-memory data exploration tool that brought the tabular model to Excel. In fact, DAX is often considered an extension to the formula language used in Excel. When Microsoft added support for the tabular model in SSAS 2012, they included support for both DAX and Multidimensional Expressions (MDX), the language traditionally used to access SSAS multidimensional data. You can use either DAX or MDX to query data in an SSAS tabular database. However, you cannot use MDX if the database is configured to run in DirectQuery mode. In addition, some client applications, such as Power View, can issue DAX queries only. As a result, if you plan to support tabular databases, you should have at least a basic understanding of how to use DAX to access data in those databases. Because DAX has its roots in PowerPivot, much of what has been written about the language has focused on how to create expressions that define measures and calculated columns. But there might be times when you want to use DAX to access data directly from a tabular database, either by issuing queries in SSMS or by creating them in other client applications. This article explains how to get started writing DAX queries within SSMS and provides numerous examples that demonstrate each concept. For these examples, we use the AdventureWorks Tabular Model SQL 2012 database, available as a SQL Server Data Tools tabular project from the AdventureWorks CodePlex site. Retrieving Table Data To query data in an SSAS tabular database from within SSMS, you must first connect to the SSAS instance that contains the database and then open an MDX query window. You have to use an MDX query window because SSMS currently does not support a DAX-specific query window. However, you can write DAX queries directly in the MDX window without taking any other steps. When using DAX to retrieve tabular data, your entire statement is founded on the evaluate clause. The clause begins with the evaluate keyword, followed by a table expression, enclosed in parenthesis. The table expression defines the results of your query. The simplest table expression is one that specifies the name of the table, enclosed in single quotes. When you specify only the table name, all rows and columns are returned. For example, the following evaluate clause retrieves all data from the InternetSales table: Notice that you first specify the order by keywords, followed by the column name on which you want to order the data. If can include more than one column, but you must separate them with a comma. When specifying the column name, you must precede it with the table name, enclosed in single quotes, and then the column name, enclosed in brackets. This method of referencing a column is typical of the approach you generally use when referencing columns in your DAX statements. With the addition of the order by clause, the results are now sorted by the ProductKey column, as shown in Figure 2. Figure 2: Ordering a result set based on the ProductKey values As handy as it is to be able to pull all the data from a table, more often than not you won8217t want to. For instance, at times you8217ll likely want to retrieve only specific columns. Unfortunately, DAX makes retrieving only some table columns a less than straightforward process, so you must use a workaround to get the information you need. One of the easiest solutions is to use the summarize function. This function groups data based on specified columns in order to aggregate data in other columns, similar to how a GROUP BY clause works in a T-SQL SELECT statement. However, you can also use the summarize function to return all rows in a table without grouping any of the data. To do so, you must first include a column or columns that uniquely identify each row in the table. For example, the following evaluate clause uses the summarize function to retrieve the Sales Order Number and Sales Order Line Number columns: When you use the summarize function, you specify the function name and then the arguments passed into the function. The first argument is your base table. All subsequent arguments are the columns you want to include in the result set. As you can see in the above example, the arguments are enclosed in parentheses and separated with commas. The summarize function groups the data by the values in the specified columns. However, together the Sales Order Number and Sales Order Line Number columns uniquely identify each row in the table, so all rows are returned and no values are grouped or summarized. Notice, too, that the order by clause now includes the two columns specified in the summarize function, separated by a comma. Figure 3 shows some of the rows returned by the DAX statement: Figure 3: Retrieving distinct values from a table If you were to scroll down these results, you would find a number of repeating Sales Order Number values, but each set of the repeated values would include unique Sales Order Line Number values, which is what makes each row unique. In other words, no two rows would share the same Sales Order Number value and the same Sales Order Line Number value. Of course, you8217re likely to want to include additional columns as well, once you8217ve identified the columns that uniquely identify each row, in which case, you need only add those columns to the mix. In the following example, the ProductKey and OrderDate columns have been added to the summarize function: As you can see in Figure 4, the results now include the additional columns, sorted by the Sales Order Number and Sales Order Line Number columns. Figure 4: Retrieving specific columns from a table The examples so far have demonstrated how to return all rows in a table. However, the nature of SSAS and the tabular model suggest that, in many cases, you8217ll want to work with summarized data. After all, conducting meaningful analysis often depends on the ability to aggregate large datasets. And the summarize function can help perform much of that aggregation. So let8217s take a closer look at that function. Summarizing Data As mentioned earlier, the columns you specify in the summarize function form the basis of how the data is grouped. In the previous two examples, we chose columns that uniquely identified each row, so no real grouping was performed, at least not in the sense that one would expect from a function used to group and summarize data. However, suppose we were to now remove the Sales Order Number and Sales Order Line Number columns, as shown in the following example: As you can see, this time round we8217re grouping our data on the ProductKey and Order Date columns only, and we8217re also doing something else, adding a third column that aggregates the data. The new column is considered a calculated column (or extension column). When adding a calculated column in this way, we include two parts. The first is the name of the new column ( Total Sales Amount ), enclosed in double quotes. The second part is an expression that defines the column8217s values. In this case, we8217re using the sum aggregate function to add together the Sales Amount values. To do so, we need only specify the function name, followed by the column, enclosed in parentheses. Now our results include three columns, with the values grouped together by the ProductKey and Order Date columns and the amount of sales for each grouping added to the Total Sales Amount column, as shown in Figure 5. Figure 5: Summarizing data in a table As you can see, DAX lets us easily get the data we need from our table. However, you might find that you want to include columns from other tables in your result set, as you would when joining tables in a T-SQL SELECT statement. Fortunately, DAX and the tabular model makes it simple to retrieve these columns. For example, suppose we want to retrieve the product names instead of the product numbers and the order year instead of a specific date and time. We can easily achieve this by modifying our summarize function as follows: As you can see, in place of the ProductKey column, we now have the Product Name column from the Product table, and instead of the Order Date column we have the Calendar Year column from the Date table. NOTE: Pulling data from the Calendar Year column in this way masks the fact that multiple relationships exist between the Internet Sales table and the Date table. The first of these relationships is defined on the OrderDateKey column in the Internet Sales table. As a result, the Calendar Year value returned by our statement is based on the date represented by that key. An explanation of the logic behind all this is beyond the scope of this article, but know that what we8217ve done in our example serves its main purpose: to demonstrate how easily we can retrieve data from other tables. In addition to switching out columns, we8217ve also updated our order by clause to reflect the new columns. Now are results our substantially different, as shown in Figure 6. Figure 6: Retrieving data from other tables As you can see, we8217ve grouped our data first by product name and then by the calendar year, with sales totals provided for each group. If you were to scroll down the list, you would find that our results include other years as well. Not surprisingly, these results are much quicker to comprehend because they include easily identifiable information: the product names and sales years. In addition, we can easily add more columns. The following example is similar to the last but now includes the Product Subcategory Name column from the Product Subcategory table and the Product Category Name column from the Product Category table: To use the ROLLUP function, you need only to precede the column name with the function name and enclose the column name in parentheses. As you can see in Figure 8, our results now include an additional row for each product. The new row provides totals for that product for all years. Figure 8: Using the ROLLUP operator to summarize data Not surprisingly, there8217s far more you can do when using DAX to summarize data, but what we8217ve covered here should help you get started. And you8217ve seen how specific we can be in terms of which columns we return. So now let8217s look at how we can filter data even further. Filtering Data One of the easiest ways to filter data in a DAX statement is to use the filter function. The function takes two arguments: a table expression and a filter. The table expression can be the name of a table or an expression that returns a table. The filter is a Boolean expression that is evaluated for each row returned by the table expression. Any row for which the expression evaluates to true is included in the result set. Let8217s look at an example to better understand how the filter function works. In the following evaluate clause, the filter function filters data in the Internet Sales table: In our example, we once again we start with a filter function, but this time, as our first argument, we use the addcolumns function to return a table. The addcolumns function takes as its first argument a table or table expression. In this case, we8217re using the Product table. After we specify our table, we add a definition for a calculated column, just like we did with the summarize function. In this case, however, the column is named Net Profit . and the column8217s values are based on an expression that subtracts the Standard Cost value from the List Price column. We then filter our results so that only rows with a List Price value greater than 0 are included in the result set. Figure 9 shows part of the results returned by the DAX statement. Notice the Net Profit column added after all the table8217s other columns. Figure 9: Adding columns to a table Of course, you8217ll often want to be more specific with your table expression, rather than simply returning the entire table. For example, you can use the summarize function as your table expression. In fact, the addcolumns function can be particularly helpful when used in conjunction with the summarize function. Let8217s take a step back. As you8217ll recall from earlier examples, we used the summarize function to add the Total Sales Amount and Total Cost computed columns to our result set. However, in some cases, you8217ll see better performance if you use the addcolumns function to create those columns, rather than creating the computed columns within the summarize function, as shown in the following example: In this case, the summarize function specifies only the columns on which to group the data. The function returns a table as the first argument to the addcolumns function. We can then add our computed columns as arguments to the addcolumns function. The only thing to remember, however, if we add columns in this way and those columns aggregate data, we must also use the calculate function to call our aggregated column. (This has to do with the context in which DAX evaluates data.) Figure 10 shows part of the results returned by the DAX statement. Figure 10: Adding columns when summarizing data Using the addcolumns function to add computed columns works in most, but not all, situations. For example, you cannot use this approach when you want to use the ROLLUP function. (Be sure to check the DAX documentation for specifics on when to use addcolumns .) However, when you can use the addcolumns function in conjunction with the summarize function, you should see better performance. Moving Ahead with DAX Now that you8217ve gotten a taste of how to use DAX to retrieve tabular data, you should be ready to start putting DAX to work. Keep in mind, however, that what we8217ve covered here only scratches the surface of what you can do with DAX. It is a surprisingly rich language that includes a number of methods for retrieving and summarizing data. In future articles in this series, we8217ll look at how to access a tabular data from other client applications, often using DAX in the process. What you8217ve learned in this article should provide you with the foundation you need to facilitate that data access. Keep in mind, however, that the better you understand DAX, the better you8217ll be able to make use of your tabular data. Subscribe for more articles Fortnightly newsletters help sharpen your skills and keep you ahead, with articles, ebooks and opinion to keep you informed. Want more Subscribe to our fortnightly newsletter Related articles Also in Database With the rise of NoSQL databases that are exploiting aspects of SQL for querying, and are embracing full transactionality, is there a danger of the data-document models hierarchical nature causing a fundamental conflict with relational theory We asked our relational expert, Hugh Bin-Haad to expound a difficult area for database theorists. hellip Read more Also in DAX Following on from his first four articles on using Data Analysis Expressions (DAX) with tabular databases, Robert Sheldon dives into some of the DAX statistical functions available, demonstrating which are the most useful and examples of how they work. hellip Read more Also in PowerPivot Although it is well-known how to create a tabular database in PowerPivot, it is less obvious that there are several useful options for retrieving SSAS tabular data into Excel. This provides an easy way of manipulating, visualizing and analyzing the data without needing to know the details of SSAS and the tabular model. hellip Read more Also in Reporting Services The Power Query Formula Language (PQFL) is a functional language that drives the Power BI transformations, and allows you to create mashup queries from scratch. Rob demonstrates how to use it in Power BI Desktop to extract data from its source, filter rows, specify the columns, clean the data, and create visualisations. hellip Read more copy 2005 - 2017 Red Gate Software Ltd What do you think of the new Simple Talk Give us your feedback

Comments

Popular posts from this blog

Montreal Børs Alternativer Handel

Av alle de kanadiske selskapene hvis aksjer handler på en børs, la jeg merke til at bare en håndfull av dem tilbyr opsjoner (samtaler, setter). Hva er årsaken til dette Ikke å tilby opsjoner på sine aksjer tegne mer oppmerksomhet til aksjen selv Et selskap bør like det og dermed bør tilby alternativer trading. Så hvorfor tilbyr mange kanadiske selskaper ikke opsjonshandel jeg så på TSX (Toronto Stock Exchange). Ett selskap (RY, Royal Bank of Canada) har opsjoner på NYSE, men ikke på TSX. Så kanskje det har noe å gjøre med TSX-utvekslingen selv, spurte Feb 3 14 kl 21:35. For det første inneholder spørsmålet ditt et par falske lokaler: Alternativer i USA handler ikke på NYSE, som er en børs. Du må ha sett på en notering fra en opsjonsutveksling. Det er en rekke opsjonsutvekslinger i USA, og mens to av disse har NYSE i navnet, refererer det til NYSE i seg selv fortsatt til børsen. Bedrifter bestemmer seg vanligvis ikke selv om opsjoner vil handle for sine aksjer. Utvekslingen og andre mar...