Zoals in een eerdere recap blog staat beschreven, zijn er verschillende teams van InSpark aanwezig geweest op Microsoft Ignite 2019. Ook het team ‘Data & AI’ van InSpark was hierbij aanwezig. Vanuit mijn rol als Data Engineer bij InSpark ben ik vol enthousiasme naar het evenement gegaan om nieuwe gave diensten en features te mogen ontdekken, die wij als team kunnen gebruiken om onze klanten beter te bedienen en te helpen te innoveren.
Dag 1 begon met de keynote van Satya Nadella waar hij presenteerde over de visie en strategie van Microsoft, waar Microsoft voor staat en waar zij naar toe willen. Ook onthulde Satya nieuwe Microsoft Azure diensten als:
Omdat mijn focus ligt op de Azure Data services, zal ik in mijn blog dieper ingaan op de ontwikkelingen rondom Azure Synapse Analytics, Azure Data Share en de ontwikkelingen op het Power BI platform. Ben je nou nieuwsgierig naar het overzicht van sessies die ik heb bezocht? Bekijk dan hier mijn volledige programma tijdens Microsoft Ignite.
Tot op heden worden nog steeds blogs en artikelen gepubliceerd betreft het nieuwe Data Analytics platform ‘Azure Synapse Analytics’. Het heeft zeker enige opschudding veroorzaakt binnen de wereld van Data Analytics. Wat ik vooral interessant vond om te zien was dat Microsoft ervoor heeft gekozen om de uitspraken en beweringen omtrent Azure Synapse Analytics niet in een obscure krant of benchmark website te publiceren, maar in zijn meest pure vorm: een zeer openbare aankondiging door Microsoft CEO Satya Nadella. Mocht je benieuwd zijn naar de volledige keynote van Satya Nadella, kun je deze terugkijken.
Het segment over Azure Synapse werd tijdens de opening keynote gegeven door Corporate VP van Azure Data, Rohan Kumar. Hij definieerde Azure Synapse op de volgende manier:
“the next generation of the Azure SQL data warehouse, which blends together big-data analytics, data warehousing and data integration into a single unified service that provides end-to-end analytics at cloud scale.”
Wat ik hier tijdens Ignite van mee heb gekregen is het volgende. Azure Synapse combineert data ingest, prep&transform, query’s, visualisering en Artificial Intelligence ondersteuning voor gestructureerde, streaming en ongestructureerde data. Het verenigt de basis van SQL Server met Big Data en Streaming Processing van Spark met de mogelijkheid voor data flows, Power BI en Azure Machine Learning. En dat alles met de flexibiliteit om capaciteit aan te passen en te schalen naar wat jij als organisatie nodig hebt. Met Azure Synapse hoeven organisaties zich minder druk te maken om de architectuur en kunnen zo meer tijd besteden aan hun core business.
Rohan Kumar sprak tijdens zijn presentatie voornamelijk over de snelheid en performance van het platform en zei het volgende:
“With Synapse, project timelines will be measured in hours and not months.”
Hij gaf aan dat het platform een complexe query 75x sneller uitvoert dan Google’s BigQuery service en 3x sneller dan Amazon’s Red Shift. Als deze beweringen van Microsoft zich in de praktijk bewijzen, kun je je voorstellen dat dit grote impact zal hebben, aangezien:
Azure Synapse maakt ook gebruik van een breed scala aan andere Microsoft services, waaronder Power BI en Azure Machine Learning, evenals een partner ecosysteem met Databricks, Informatica, Accenture, Panoply, Talend, Attunity, Pargmatic Works en Adatis. Daarbij is het ook geïntegreerd met Apache Spark. Het platform moet zich in de praktijk nog maar bewijzen, maar als het doet wat Microsoft zegt wat het doet, zal dit een enorm krachtige tool zijn om veel business opportunities aan te kunnen vliegen.
Azure Data Share is een push-subscriber-based data sharing tool waarmee gebruikers datasets kunnen delen met behulp van Azure Services. Het vereist geen infrastructuur en werkt met andere PaaS Services als Azure Blob, Data lake (Gen1 & Gen2), SQL DB en SQL DWH. De focus ligt voornamelijk op Big Data, voor het delen van grote datasets, maar kan ook werken met andere vormen van gegevens:
Zodra de provider-consumer link is gemaakt voor een dataset kunnen consumers een Incremental Load uitvoeren die alleen nieuwe gegevens ophalen sinds de laatste run. Dit scheelt op gebied van performance enorm veel wanneer je veel of grote datasets uitwisselt.
Azure Data Share biedt een beheer panel waarin zowel de providers als consumers kunnen zien waar de data vandaan komt, van wie het is, wanneer het voor het laatst is ververst en de mogelijkheid om de Data Share connectie weer te verbreken. Dit is interessant voor organisaties die veel gegevens delen aangezien zij met deze beheer panel een duidelijk overzicht krijgen van welke gegevens zij delen, en met wie. Tevens kunnen deze organisaties ook met één klik op de knop de Data Share connecties verbreken.
Er werden op Ignite 30 sessies gehouden die betrekking hadden op Power BI. Dit is erg veel, maar met de nieuwe technieken en innovaties die zijn aangekondigd voor Power BI is het begrijpelijk dat er zoveel sessies waren. Nieuwe features van Power BI die gaan komen zijn als volgt:
Power BI Deployment Pipelines is naar mijn mening de gaafste nieuwe feature die in 2020 gaat komen. Met Power BI Deployment Pipelines zijn organisaties in staat om op een veilige en eenvoudige manier wijzigingen te deployen binnen OTAP omgevingen (workspaces), waardoor handmatige handelingen of custom scripting niet meer nodig is. Vanuit de Power BI Service kunnen deze pipelines getriggerd worden die alle wijzigingen in bijvoorbeeld een development workspace deployen naar een test workspace. Op deze manier hoef je niet meer handmatig PBIX bestanden te publishen naar verschillende omgevingen en daarboven versiebeheer te doen om te borgen dat alles maar goed staat overal.
Ook zijn de verschillende deployment pipelines die een gebruiker aanmaakt configurabel waarmee met behulp van parameters verschillende workspaces in Power BI kunnen wijzen naar bijbehorende omgevingen (OTAP). Hierdoor hoeven connection parameters niet steeds gewijzigd te worden. Ten slotte is het ook mogelijk om RLS af te dwingen in een workspace met behulp van de deployment pipelines. Met deze functie zou je gevoelige data kunnen afschermen in een development workspace, en alleen zichtbaar maken in een production workspace zonder enige tussen handelingen.
Wanneer je de nieuwe ontwikkelingen van Power BI goed in de gaten houdt zie je dat Power BI steeds meer functionaliteiten van Azure Analysis Services overneemt en soms zelfs verbetert. Power BI komt nu dan ook met een Big Data Model waarin datasets opgeslagen worden in een gecomprimeerde cache voor razendsnelle query performance. Dit zorgt voor snelle gebruikersinteractiviteit over grote datasets. Tot kort geleden waren datasetcaches in Power BI Premium gelimiteerd tot 10GB na compressie. Het Big Data Model elimineert deze beperking waardoor de cache grootte van een dataset nu alleen maar wordt gelimiteerd door de capaciteit van Power BI Premium die een gebruiker/organisatie afneemt. Ook kan er gebruik gemaakt worden van een Incremental refresh binnen een Big Data Model wat zorgt voor minimale overhead tijdens interactiviteit over grote datasets.
Vele zeggen al dat met de komst van het Big Data Model in combinatie met Aggregations, Incremental refresh en Shared & Certified datasets, dat Power BI de next generation van Azure Analysis Services is.
Power BI komt met Cognitieve services waarmee het mogelijk wordt om bijvoorbeeld een Machine Learning model te maken en te trainen binnen Power BI zonder enige technische kennis van Machine Learning. Ook wordt het gebruik van Common Data Services binnen Power BI mogelijk waardoor je makkelijker Power BI kan integreren met andere componenten binnen het Power Platform van Microsoft.
Tot slot zie je ook dat Power BI veel focus legt op gebied van Governance en Data Protection met bijvoorbeeld deze features:
Helaas kan ik niet alles beschrijven van wat ik heb meegemaakt, dus om nog een beeld te geven van wat er onder andere nog meer gaat komen staan hieronder verschillende Azure dataservices met nieuwe features en aankondigingen.
Azure Service | Feature |
Azure Datawarehouse | Dynamics data masking (GA) |
Azure Datawarehouse | Column level encryption |
Azure Data Lake Storage Gen2 | Native query |
Azure Data Lake Storage Gen2 | Event Grid integration (GA) |
Azure Data Lake Storage Gen2 | SDK (Public preview planned for November 2019) |
Azure Data Factory | Wrangling Data Flow (Public preview) |
Azure Databricks | MSI supported |
Azure Databricks | AKV-backed secret via API and CLI |
Azure Databricks | Azure Lighthouse integration |
Een laatste ding wat mij is opgevallen tijdens Ignite, is dat er naast ‘Innovatie’ ook veel focus gelegd werd op ‘Governance’. IT Governance is van cruciaal belang aangezien het steeds een grotere rol gaat spelen binnen groeiende ICT organisaties, maar ook binnen non-ICT organisaties die met gegevens werken. Ik ben ook dan blij om te horen dat Microsoft hier veel focus op legt aangezien volwassen organisaties verwachten dat Governance standaard wordt meegenomen in de dienstverlening van IT-dienstverleners.
Ik heb veel kennis opgedaan en inside informatie gekregen met betrekking tot Azure dataservices, waar wij als Data & AI team veel aan hebben om onze moderne data platform ‘Oxygen’ te vernieuwen om zo onze klanten te helpen innoveren. Wil jij nou meer weten over de laatste ontwikkelingen op het datavlak? Of ben je nieuwsgierig naar de mogelijkheden voor jouw bedrijf? Bekijk dan mijn recap vlog hieronder of neem contact met mij op.