Maar toepassing Business Data Lake nog relatief beperkt

EMC Onderzoek Big DataUit onderzoek van EMC Nederland blijkt dat bedrijven er serieus werk van maken om Big Data-toepassingen in hun eigen organisatie op te bouwen. Een derde van de ondervraagden is al ruim twee jaar bezig en de helft is hier afgelopen jaar ook mee aan de slag gegaan. Hierbij is het voor velen vanzelfsprekend dat dit soort projecten een intensieve samenwerking tussen de business en de IT-medewerkers vraagt, omdat enerzijds business-informatie wordt gezocht in verzamelde data en anderzijds dat hier best complexe techniek aan ten grondslag ligt. Het onderzoek laat tevens zien dat in veel Nederlandse organisaties nog niet voldoende kennis aanwezig is om Big Data-projecten succesvol uit te kunnen voeren.

EMC ondervroeg 102 Nederlandse zakelijke beslissers op het gebied van Marketing, HR en algemeen business management met als doel inzicht te krijgen in hun kennis op het gebied van Big Data. Met achterliggend vragen over data governance, de toepassing van data lakes en de ontwikkeling van informatie-analysekennis. Ook werd geïnformeerd naar de samenwerking tussen de business en de IT-afdelingen in deze toch vaak gemeenschappelijk opgezette projecten.

Hans Timmerman, CTO van EMC Nederland:

“Data is de olie van de 21ste eeuw. Het slim vergaren van de juiste data en daar vervolgens kennis uit halen, maakt dat je je positief van je concurrent kunt onderscheiden. Bedrijven die daadkrachtig hun hele keten digitaliseren, real time engagement met hun klant realiseren en slim data vergaren en gebruiken, blijken in staat de orde hevig te verstoren. De basis van hun succes is echter wel de inzet van vaak ingewikkelde techniek zoals Big Data, Data Lakes en informatieanalyse. Hoewel steeds meer bedrijven inzien dat zij deze richting op moeten, is er nog heel veel winst te behalen op dit gebied.” 

Samen shoppen
Twee derde van de ondervraagden geeft aan dat de business en de IT-afdeling samen optrekken bij de start en uitvoering van Big Data-projecten. In 27% van de gevallen is de IT-afdeling de aanjager, in slechts 9% is de business zelf de initiator. In een derde van de gevallen zorgen de informatiespecialisten dat de vereiste software wordt aangeschaft, maar in een vergelijkbaar deel van de gevallen zoekt de business zijn eigen gewenste software. Uit ruim 90% van de antwoorden blijkt dat de samenwerking tussen business en IT bij dit soort projecten goed tot zeer goed is.

Kennisniveau
Op het gebied van kennisniveau zijn er op alle fronten nog aardig wat vraagtekens. Ongeveer de helft van de ondervraagden weet niet of zij of de rest van de organisatie (al) de juiste kennis en kunde in huis hebben om deze projecten succesvol uit te voeren. Het is een nieuwe techniek en vaak weet men niet waar te beginnen. Een derde van de ondervraagden zegt dat de techniek en de gewenste data intussen voorhanden zijn, maar dat men zeker nog veel moet experimenteren en projecten moet uitvoeren om de kennis en kunde op dit gebied op het gewenste niveau te krijgen.

Business Data Lakes
Timmerman:

“Om effectief met data-analyse aan de slag te gaan, zijn twee zaken nodig. Allereerst moet men weten welke data men heeft om te onderzoeken. Dit klinkt triviaal, maar weten wat je data is, welke kwaliteit het heeft, wat de bron was en wie de eigenaar daarvan is, blijkt nog best lastig. Goede data governance is daarom voor vele organisaties nog best een uitdaging. Ten tweede moet men de data die men wil onderzoeken beschikbaar maken in wat men tegenwoordig een Business Data Lake noemt. Een data-opslagomgeving waar men werkelijk alle (soorten) data beschikbaar kan stellen die voor de data-analyse nodig is. Dit kan gestructureerde data uit enterprise applicaties zijn, maar ook ongestructureerde data uit allerlei mogelijke bronnen, van e-mail tot en met twitterberichten, van marketingdata tot en met sociale media. Het begrip data lake is bij de meeste ondervraagden nog onbekend of op zijn minst onduidelijk. Hier ligt een taak voor de IT-afdeling deze kennis te vergroten.” 

Data-analyse
Van de ondervraagden is de meerderheid ervan overtuigd dat de business hier zijn stempel op zal moeten drukken. Ruim de meerderheid geeft aan dat men juist veel externe data wil gebruiken die bijvoorbeeld wordt verzameld uit sociale media of via apps die klanten gebruiken. De kennis en beschikbaarheid van deskundigen op dit gebied noemt men nog onder de maat. Data scientists, data-analisten en business intelligence-deskundigheid zijn vakgebieden waar nog veel vraag zal blijven de komende jaren. Hoewel dat ruim de helft van de ondervraagden niet tegenhoudt zichzelf actief in deze vakgebieden te ontwikkelen. 

“Steeds meer organisaties in Nederland zijn echt serieus aan het werk met big data-analyse, dat blijkt ook weer uit dit onderzoek. Ook is 55 procent van de ondervraagden van mening dat data-analyse niet per se het domein van IT is en velen zijn zelf al actief met het analyseren van data. Deze trend maakt dat het effectief inrichten van een Business Data Lake niet alleen steeds interessanter wordt, maar voor menig onderneming ook een vereiste is om de grote hoeveelheid data die beschikbaar is te kunnen beheren en analyseren. Studenten en mensen die al werken in de ICT en hierop inspringen, kunnen ongetwijfeld een goede en interessante baan tegemoet zien.”,

vervolgt Timmerman

Opmerkelijk
Andere opmerkelijke resultaten uit dit onderzoek zijn:

  • 9 procent van de respondenten geeft aan dat zij nooit contact heeft met medewerkers van hun IT-afdeling en/of het IT-management. Dat is toch bijna één op de tien ondervraagden.
  • 15 procent van de respondenten denkt dat er niet meer data, dan reeds bij hen bekend, binnen het bedrijf aanwezig is die kan helpen bij het nemen van (betere) zakelijke beslissingen of oplossen van problemen. Daarmee diskwalificeren zij bijvoorbeeld data uit sociale media, afkomstig van sensoren of van derde partijen zoals klanten en partners.

 

Bron: EMC

 


Software AG – bekend van ARIS, webMethods en Terracotta – heeft met Progress Software de overeenstemming bereikt om het toonaangevende CEP-platform Apama over te nemen. CEP, afkorting voor Complex Event Processing, stelt organisaties in staat om grote datastromen in real-time te verwerken en te analyseren, zodat ze onmiddellijk kunnen reageren op kansen en bedreigingen. De snelheid waarmee een organisatie binnenkomende data analyseert en vertaalt naar actie, is in de huidige informatie-economie maatgevend voor succes. CEP-systemen zijn onmisbaar bij bedrijfsprocessen waarbij secondes tellen en die daarom vragen om directe actie, zoals de handel op de kapitaalmarkt, marktsurveillance, risicomitigatie, fraudebestrijding en klantinteractie (customer experience management). De combinatie van Apama en het bestaande Software AG-portfolio voor low-latency messaging en in-memory datamanagement – onderdeel van het Terracotta-platform – zorgt voor een nieuwe generatie intelligente toepassingen in marktsectoren als de financiële dienstverlening, telecommunicatie, energie, logistiek en retail.  

 

”Data kan haar waarde in luttele seconden verliezen”, zegt Hans Kouffeld, vicepresident Benelux van  Software AG. ”Onze big data technologie richt zich op ondernemingen die adequaat willen reageren op meervoudige, complexe datastromen die hen dagelijks bereiken. Dat kan zolang de data nog in beweging is en de daarin vervatte informatie nog van waarde is voor het beïnvloeden van de uitkomst van bedrijfskritische processen. Denk daarbij aan het voorkomen van fraude of het optimaliseren van de klantbeleving. In bepaalde sectoren, zoals bij het begeleiden van verkeersstromen of bij diensten in de openbare orde en veiligheid dan wel de medische zorg kan een directe respons zelfs levens redden. De toevoeging van Apama is een belangrijke stap in het realiseren van onze Business Process Excellence-strategie die onze klanten moet helpen in hun digitaliseringslag. Onder invloed van megatrends als big data, cloud, mobility en social collaboration maken bedrijven een transformatie door die ze in staat stelt zichzelf opnieuw uit te vinden.”

De naam Apama blijft gehandhaafd vanwege het sterke merk en de herkenning in de markt.

Over Software AG
Software AG (FRA: SOW) helpt bedrijven bij het sneller realiseren van hun zakelijke doelen. De technologieën van het bedrijf voor Big Data, integratie en procesmanagement stellen klanten in staat de operationele efficiëntie te vergroten, hun systemen te moderniseren en bedrijfsprocessen te optimaliseren voor een betere besluitvorming en dienstverlening. Software AG bouwt voort op meer dan veertig jaar klantgerichte innovatie en is leider in vijftien markcategorieën. Aan de basis van het leiderschap liggen kernproducten als Adabas en Natural, ARIS, Terracotta en webMethods. Software AG telt ruim 5.400 medewerkers in zeventig landen. In 2012 bedroeg de omzet 1,05 miljard euro.


Door slechte datakwaliteit voldoen financiële instellingen niet aan de wet- en regelgeving en maken zij bedrijfsbeslissingen op basis van verkeerde informatie. Dit blijkt uit een studie van Peter Berger, Manager Financial Services Industry bij risk- en businessconsultant Protiviti. Berger won hiermee de NBA VRC Scriptie Prijs.
risico_ermGebrekkig inzicht in de kwaliteit van data, leidt tot onvoldoende inzicht in het risicoprofiel van een organisatie en schijnveiligheid. Financiële instellingen lopen daarbij het risico niet te voldoen aan de eisen van bijvoorbeeld Basel en Solvency II.

Naast gebrekkig inzicht in de kwaliteit van data, ontbreekt het ook aan een structurele oplossing om datakwaliteit op de lange termijn optimaal te houden. Hierdoor kost het management en directie onnodig veel tijd en geld om de juiste informatie te verkrijgen of om te voldoen aan de steeds strengere eisen van toezichthouders. Directie en management van financiële instellingen moeten data beschouwen als een essentieel onderdeel van hun bedrijfsstrategie. Peter Berger: ‘Voor financiële instellingen – die volledig gebaseerd zijn op data – is data van goede kwaliteit cruciaal. Hoe hoger de kwaliteit, hoe groter de effectiviteit en hoe meer kosten bespaard kunnen worden. Bedrijven kunnen sneller inspelen op risico’s en dus op kansen. Ze begrijpen hun klanten en de markt beter en zijn in staat hier veel sneller op in te spelen met bijvoorbeeld productinnovatie.’

Datavervuiling

Datavervuiling begint al wanneer data bij organisaties binnenkomt: klantdata, productvoorwaarden, onderpanden, verzekerde objecten et cetera. De vervuiling wordt bijvoorbeeld veroorzaakt door slecht ingerichte processen, maar ook doordat de organisatie zich er simpelweg niet bewust van is. Daarbij veroudert de data snel. Bij met name banken en verzekeraars is het risico tot datavervuiling groot omdat zij complexe producten hebben en met verschillende verouderde systemen werken. ‘Data wordt uiteindelijk omgezet naar informatie; op basis daarvan nemen directie en management beslissingen. Verkeerde data levert verkeerde informatie op. Dat betekent dat aannames worden gedaan en beslissingen dus worden genomen op basis van onjuiste informatie’, aldus Berger. Directie en management weten volgens Berger vaak niet wat de kwaliteit van data is, of ze erop kunnen vertrouwen en wie er uiteindelijk verantwoordelijk is voor datakwaliteit.

Wie is verantwoordelijk?
Alhoewel IT een belangrijke rol speelt bij datamanagement is het van groot belang hen niet verantwoordelijk te stellen. De gehele organisatie moet zich bewust zijn van het belang van optimale datakwaliteit, te beginnen bij directie en management. ‘De CIO kan een belangrijke rol spelen om een goed framework te implementeren, maar uiteindelijk moeten alle afdelingen en functies hun verantwoordelijkheid nemen. Dan pas kan data waarde toevoegen aan je organisatie’, aldus Berger.

Bedrijven moeten allereerst bepalen wat hun core business is en dan pas welke data en framework nodig zijn, in plaats van andersom. Berger: ‘In veel gevallen kun je gebruikmaken van bestaande structuren. Een valkuil is om een extra administratie- of managementlaag te creëren om te voldoen aan regelgeving, terwijl deze geen waarde toevoegen aan de organisatie.’

Opbouw framework
Een data framework moet opgebouwd worden met simpele en overzichtelijke bouwstenen. Dit legt de basis voor een goede data-infrastructuur en kwaliteitsstandaard die vervolgens top down geïntegreerd kan worden in de volledige organisatie. Vervolgens moet datakwaliteit continu gemonitord en bewaakt worden. Berger: ‘Het implementeren van een goed data framework kost tijd, maar levert veel op. Het is tijd om datakwaliteit te beschouwen als een continue aandachtspunt en vast onderdeel van de dagelijkse praktijk.’
Bron: Protiviti.nl


Two of today’s hottest technology trends—big data and cloud computing—converge as enterprises seek to get a handle on their growing volumes of information.

By Bob Violino

Two of the hottest IT trends today are the move to cloud computing and the emergence of big data as a key initiative for leveraging information. For some enterprises, both of these trends are converging, as they try to manage and analyze big data in their cloud deployments.

“Our research with respect to the interaction between big data and cloud suggests that the dominant sentiment among developers is that big data is a natural component of the cloud,” says Ben Hanley, senior analyst at research firm Evans Data. Companies are increasingly using cloud deployments to address big data and analytics needs, he says, adding, “We have observed significant growth with respect to the interaction between cloud and big data.”

Geostellar, a Washington, D.C., company that provides computations of available renewable-energy resources for geographic locations, is involved in both the cloud and big data. The company has had to develop strategies—including the use of cloud services—to store, process and move the petabytes of information in various formats that it processes and provides to customers.

The company didn’t move to the cloud until about a year and a half ago. It started out by providing data to customers via hard drives. Later it implemented on-site virtualized servers and moved them into hosted environments, and then migrated to the cloud.

“All of the data we’re processing has to be centralized in our operations center,” says CEO David Levine, “because the various fields are so large, and it’s much more efficient in terms of the proximity of dedicated CPUs and disk drives for reading and writing and processing configurations.”

Before the company processes data internally, various sources ship raw data sets via hard drives sent by overnight delivery or some other means. “We take all these different data assets and create data structures, so when the customer looks up [a particular] property, he has the profile he needs,” Levine explains. That applies regardless of whether it’s weather patterns or available resources in the area being examined.

The data Geostellar collects isn’t moved within the cloud because of its large size. “We’ve got these very large files—imagery, surface models, databases, etc.—and we have to aggregate all of this information,” Levine says. “And people are still shipping that to us on hard drives because of the bandwidth.”

Once processing of the data is complete, Geostellar streams it over to the cloud, and then customers can access and interact with the data from there. “We [and customers] can work with data in the cloud because we’ve already created all these interrelated structures,” Levine says.

Over time, Geostellar has developed its process of gathering and analyzing large volumes of information, producing connected spatial-relational data sets and then moving the data from its data centers to the cloud.

The company now operates two separate infrastructures, a highly efficient processing system that includes solid-state hard drives and powerful, dedicated servers, and a virtualized, cloud-based environment used for managing the information it produces through computation. The cloud is critical for distributing and providing access to this data, Levine says.

“Probably the biggest benefit of the cloud is that it’s much easier to manage capacity,” he says. “You can stay ahead of whatever trends are happening.” There’s also resiliency in terms of long-term storage of the data.

The cost saving is another benefit. “It’s [the service provider’s] excess capacity we’re using, and the memory is cheaper than if we had procured our own systems and set up our own nodes,” Levine says.

Collecting Data From Around the World

Another organization using big data in the cloud is the Virginia Bioinformatics Institute (VBI), a research institute in Blacksburg, Va. VBI conducts genome analysis and DNA sequencing using about 100 terabytes of data that’s collected each week from around the world.

“Our largest project is the downloading and reanalysis of every sequenced human genome to identify new biomarkers and drug targets, especially for cancer,” says Skip Garner, executive director and professor at VBI. “We are analyzing approximately 100 genomes per day, and these are all downloaded from the cloud.”

Data generated from various scientific sources is downloaded and then analyzed on VBI servers. “Recently, it has become easier and more efficient to download what we need and not keep local copies, for it amounts to tens of petabytes,” Garner says. “So the cloud has enabled us to download, use and throw away raw data to save space, and then download again if necessary.”

The institute hasn’t used non-cloud compute resources for the research work because its codes “are memory hogs, requiring servers with at least a terabyte of RAM,” he explains.

Managing big data in the cloud does come with challenges, Garner points out. The big issues are security and intellectual property. For example, VBI has permission to download certain data sets, and, in those agreements, it must maintain control, allowing only certain people to have access to the data.

“We can be absolutely sure of where the data is when it is in our servers, and we are confident that we are adhering to the terms of agreements,” Garner says. “That is not [the case] when data is in the cloud. So, currently, we do not put data in the cloud, we only download.”

Downloading and using data from the cloud saves VBI a lot on storage costs, and the return on investment was “immediate”, according to Garner.

As organizations approach big data, their first choice for compute and storage platforms should be the cloud, says Chris Smith, U.S. federal chief technology and innovation officer at New York-based Accenture, a global management consulting company.

“Low cost, highly scalable and elastic capabilities are the right formula for implementing big data,” Smith says. “In some cases, a big data solution in a highly secure environment may dictate an internal data center [strategy], but most organizations are developing their own internal private clouds, and this is the right place for those specific solutions as well.”

Organizations continue to adopt and implement private, public and hybrid clouds, “with these technologies having become mainstream choices for developing new capabilities,” Smith says. “I expect to see increased and even more rapid adoption over the next 18 to 24 months.”

As organizations increase the breadth and depth of business technology offerings in the cloud, Smith says, they need to ensure that they can manage information across multiple heterogeneous environments, in order to be able to clearly develop, analyze and articulate the state of business, as well as provide highly available, high-performing services that deliver value.

“A robust cloud brokering and orchestration capability that puts the organization in the driver’s seat to maintain, deliver and innovate new and better services will be key for the enterprise,” Smith says.

The cloud itself will continue to generate lots of data, says London-based research firm Ovum. In “2013 Trends to Watch: Cloud Computing,” the firm says that 2013 will see cloud computing continue to grow rapidly. Cloud computing in all its types—public, private and hybrid—is building momentum, evolving fast and becoming increasingly enterprise-grade, Ovum says.

Cloud computing services—and the social and mobile applications that cloud platforms underpin—are generating a lot of data, which, in turn, requires cloud services and applications to make sense of it, Ovum notes.

This trend is fueling other industry trends, such as the Internet of things (machine-to-machine communication and data processing), consumerization of IT and big data.

Original blog: Baseline Magazine