Big data

Big data er en altomfattende betegnelse for enhver indsamling af data sætter så store og komplekse, at det bliver svært at behandle dem ved hjælp af traditionelle databehandling applikationer.

Udfordringerne omfatter analyse, opsamling, datasikring, søg, deling, lagring, overførsel, visualisering, og krænkelse af privatlivets fred. Tendensen til større datasæt skyldes de yderligere oplysninger kan afledes af en analyse af en enkelt stor sæt relaterede data i forhold til at adskille mindre apparater med den samme samlede mængde data, så korrelationer, der findes i "spot konjunkturer, forebygge sygdomme, bekæmpe kriminalitet og så videre. "

Forskere jævnligt støder begrænsninger på grund af store datasæt på mange områder, herunder meteorologi, genomforskning, connectomics, komplekse fysik simuleringer, og biologisk og miljøforskning. Begrænsningerne påvirker også internetsøgning, finans og business informatik. Datasæt vokser i størrelse dels fordi de i stigende grad er ved at blive indsamlet af it i alt-sensing mobile enheder, luftfotos sensoriske teknologier, software logfiler, kameraer, mikrofoner, radiofrekvensidentifikation læsere og trådløse sensor netværk. Verdens teknologiske per capita kapacitet til at lagre information er omtrent fordoblet hver 40 måneder siden 1980'erne; fra 2012, blev hver dag 2,5 exabytes data oprettet. Udfordringen for store virksomheder er at bestemme, hvem der skal ejer big data initiativer, der danner bro hele organisationen.

Big data er vanskeligt at arbejde med bruger mest relationel database management systemer og desktop statistik og visualisering pakker, der kræver i stedet "massivt parallelle software, der kører på tiere, hundreder, eller endda tusindvis af servere". Hvad der anses for "big data" varierer afhængigt af funktionerne i den organisation, der forvalter det sæt, og på mulighederne i de programmer, der traditionelt bruges til at behandle og analysere datasæt i sit domæne. Big data er et mål i bevægelse; hvad der anses for at være "Big" i dag vil ikke være så kommende år. "For nogle organisationer, står hundredvis af gigabyte data for første gang kan udløse et behov for at genoverveje datastyring muligheder. For andre kan det tage snesevis eller hundredvis af terabytes før data størrelse bliver en væsentlig overvejelse."

Definition

Big data omfatter normalt datasæt med størrelser uden evne almindeligt anvendte software-værktøjer til at fange, kapellan, håndtere og behandle data inden for en tolerabel forløbne tid. Big data "størrelse" er en konstant bevægeligt mål, fra 2012 spænder fra et par dusin terabytes til mange petabyte data. Big data er et sæt af teknikker og teknologier, der kræver nye former for integration til at afdække store skjulte værdier fra store datasæt, der er forskellige, komplekse, og en massiv.

I en 2001 forskningsrapport og relaterede foredrag, META Group analytiker Doug Laney definerede væksttal udfordringer og muligheder som værende tre-dimensionelle, dvs. stigende mængde, hastighed og sort. Gartner, og nu meget af industrien, fortsætte med at bruge denne "3Vs" model til at beskrive store data. I 2012 Gartner opdateret sin definition som følger: ". Big data er høj volumen, høj hastighed, og / eller høje sort informationsaktiver, der kræver nye former for behandling for at muliggøre forbedret beslutningstagning, indsigt opdagelse og procesoptimering" Derudover er en ny V "Veracity" tilføjede af nogle organisationer til at beskrive det.

Hvis der stadig er meget udbredt Gartners definition, den stigende modenhed af konceptet fremmer en mere sund forskel store data og Business Intelligence, om data og deres anvendelse:

  • Business Intelligence bruger beskrivende statistik med data med høj oplysninger tæthed til at måle ting, opdage tendenser osv .;
  • Big data bruger induktive statistikker og begreber fra lineær identifikationssystem til at udlede love fra store datasæt med lav informationstæthed at afsløre relationer, afhængigheder og udføre forudsigelser af resultater og adfærd.

Big data kan også defineres som "Big data er et stort volumen ustruktureret data, som ikke kan håndteres af standard-database management systemer som DBMS, RDBMS eller ORDBMS".

Eksempler

Big Science

Large Hadron Collider eksperimenter repræsenterer omkring 150 millioner sensorer leverer data 40 millioner gange i sekundet. Der er næsten 600 millioner kollisioner per sekund. Efter filtrering og afstå fra at optage mere end 99,999% af disse vandløb er der 100 kollisioner af interesse per sekund.

  • Som et resultat, der kun arbejder med mindre end 0,001% af sensorens streame data, datastrømmen fra alle fire LHC eksperimenter repræsenterer 25 petabyte årlig rente før replikation. Dette bliver næsten 200 petabyte efter replikation.
  • Hvis alle data sensor skulle registreres i LHC, ville datastrømmen være ekstremt svært at arbejde med. Datastrømmen vil overstige 150 millioner petabyte årlige sats eller næsten 500 exabytes om dagen, før replikation. For at sætte antallet i perspektiv, svarer dette til 500 quintillion bytes per dag, næsten 200 gange mere end alle de andre kilder kombineret i verden.

Den kvadratkilometer Array er et teleskop, som består af millioner af antenner og forventes at være operationelt i 2024. Tilsammen er disse antenner forventes at samle 14 exabytes og gemme en petabyte per dag. Det anses for at være et af de mest ambitiøse videnskabelige projekter nogensinde iværksat.

Videnskab og forskning

  • Når Sloan Digital Sky Survey begyndte at samle astronomiske data i 2000, er det tjent mere i de første par uger, end alle data indsamlet i historien om astronomi. Fortsat med en hastighed på omkring 200 GB per nat, har SDSS tjent mere end 140 terabyte oplysninger. Når Large synoptiske Survey Telescope, efterfølger til SDSS, kommer online i 2016 forventes det at erhverve, at mængden af ​​data hver femte dag.
  • Afkodning af menneskelige genom oprindeligt tog 10 år at behandle, nu kan nås på mindre end en dag: DNA sequencere har delt sekventering omkostningerne ved 10.000 i de sidste ti år, hvilket er 100 gange billigere end den reduktion i omkostningerne forudsagt af Moores lov.
  • NASA Center for Climate Simulation lagrer 32 petabyte af klima observationer og simuleringer på Oplev supercomputere klynge.

Regeringen

  • I 2012 annoncerede Obama-administrationen Big data for Forskning og Udvikling Initiative, for at undersøge, hvordan big data kan bruges til at løse vigtige problemer, som regeringen står over for. Initiativet består af 84 forskellige big data programmer fordelt på seks afdelinger.
  • Big dataanalyse spillet en stor rolle i Barack Obamas succesfulde 2012 genvalg kampagne.
  • Den amerikanske forbundsregering ejer seks af de ti kraftigste supercomputere i verden.
  • Utah Data Center er et datacenter i øjeblikket bliver bygget af USA National Security Agency. Når du er færdig, vil anlægget være i stand til at håndtere en stor mængde oplysninger indsamlet af NSA over internettet. Den nøjagtige mængde lagerplads er ukendt, men nyere kilder hævder, at det vil være i størrelsesordenen af ​​nogle få exabytes.

Den private sektor

  • eBay.com anvender data to pakhuse på 7,5 petabyte og 40PB samt en 40PB Hadoop klynge til søgning, forbruger anbefalinger og merchandising. Inde eBays 90PB data warehouse
  • Amazon.com håndterer millioner af back-end-operationer hver dag, samt forespørgsler fra mere end en halv million tredjeparts sælgere. Den centrale teknologi, der holder Amazon kører, er Linux-baseret, og som fra 2005 havde de verdens tre største Linux-databaser, med kapacitet på 7,8 TB, 18,5 TB, og 24,7 TB.
  • Walmart håndterer mere end 1 million kundetransaktioner hver time, der importeres til databaser skønnes at indeholde mere end 2,5 petabyte data - svarende til 167 gange oplysningerne i alle bøgerne i USA Library of Congress.
  • Facebook håndterer 50 milliarder fotos fra sin brugerbase.
  • FICO Falcon kreditkortbedrageri Detection System beskytter 2,1 milliarder aktive konti verden over.
  • Mængden af ​​forretningsdata i hele verden, på tværs af alle selskaber, fordobles hvert 1,2 år, ifølge skøn.
  • Windermere Real Estate bruger anonyme GPS-signaler fra næsten 100 millioner bilister til at hjælpe nye boligkøbere bestemme deres typiske drev gange til og fra arbejde i hele forskellige tidspunkter af dagen.

International udvikling

Forskning i effektiv brug af informations- og kommunikationsteknologi til udvikling tyder på, at big data teknologi kan bidrage væsentligt, men også præsentere unikke udfordringer til international udvikling. Fremskridt i store dataanalyse tilbyde omkostningseffektive muligheder for at forbedre beslutningstagningen i kritiske udviklingsområder som sundhed, beskæftigelse, økonomisk produktivitet, kriminalitet, sikkerhed og naturkatastrofer og ressourcestyring. Men mangeårige udfordringer for udviklingslandene regioner som utilstrækkelig teknologisk infrastruktur og knaphed økonomiske og menneskelige ressourcer forværre eksisterende problemer med store data såsom privatlivets fred, ufuldkommen metode og interoperabilitet.

Egenskaber

Big data kan beskrives ved følgende karakteristika:

Volumen - Mængden af ​​data, der genereres er meget vigtigt i denne context.It er størrelsen af ​​de data, der bestemmer værdien og potentialet i de data, der er under overvejelse, og om det kan faktisk betragtes som Big Data, eller not.The navnet ' big data "i sig selv indeholder et begreb, der er relateret til størrelse og dermed den karakteristiske.

Variety - Næste aspekt af Big data er dens variety.This betyder, at den kategori, som Big data tilhører er også en meget vigtig kendsgerning, der skal være kendt af de registrerede analysts.This hjælper de mennesker, der er tæt analyserer data og er forbundet med det, for effektivt at bruge dataene til deres fordel, og dermed fastholde vigtigheden af ​​Big data.

Velocity - Udtrykket »hastighed« i forbindelse refererer til hastigheden for generering af data, eller hvor hurtigt data genereres og behandles for at opfylde de krav og udfordringer, der ligger forude i vejen for vækst og udvikling.

Variabilitet - Det er en faktor, der kan være et problem for dem, der analyserer data. Dette refererer til den uoverensstemmelse, som kan vises af de data, til tider, hvilket hæmmer processen med at kunne håndtere og styre data effektivt.

Rigtigheden - Kvaliteten af ​​de data, der erobrede kan variere meget. Nøjagtigheden af ​​analysen afhænger af rigtigheden af ​​kildedata.

Kompleksitet - Data management kan blive en meget kompleks proces, især når store mængder data kommer fra flere sources.These data skal knyttes, tilsluttes og korreleret for at være i stand til at forstå de oplysninger, der formodes at blive transporteret af disse data .den situation er derfor betegnes som den "kompleksitet" Big data.

Marked

Big data har øget efterspørgslen af ​​information management specialister i at Software AG, har Oracle Corporation, IBM, Fico, Microsoft, SAP, EMC, HP og Dell har brugt mere end $ 15 milliarder på software virksomheder med speciale i data management og analytics. I 2010 denne industri var mere værd end $ 100 milliarder, og voksede på næsten 10 procent om året: ca. dobbelt så hurtigt som den software, virksomheden som helhed.

Udviklede økonomier gør øget brug af data-intensive teknologier. Der er 4,6 milliarder mobil-telefon-abonnementer i hele verden og mellem 1 milliard og 2 milliarder mennesker adgang til internettet. Mellem 1990 og 2005, mere end 1 milliard mennesker verden over ind i middelklassen, hvilket betyder flere og flere mennesker, der får penge vil blive mere kultiveret hvilket igen fører til vækst oplysninger. Verdens effektiv kapacitet til at udveksle oplysninger via telekommunikationsnetværk var 281 petabyte i 1986, 471 petabyte i 1993 2,2 exabytes i 2000 65 exabytes i 2007, og det forventes, at mængden af ​​trafik, der flyder over internettet vil nå 667 exabytes årligt i 2014 . Det anslås, at en tredjedel af den globalt lagrede information i form af alfanumeriske tekst og stadig billeddata, som er formatet mest egnede til de fleste store dataapplikationer. Dette viser også potentiale endnu ubrugte data.

Mens mange leverandører tilbyder off-the-shelf løsninger til big data, eksperter anbefaler udviklingen af ​​in-house-løsninger skræddersyet til at løse problemet selskaber ved hånden, hvis virksomheden har tilstrækkelige tekniske muligheder.

Arkitektur

I 2000 Seisint Inc. udvikler C ++ baseret distribueret fildeling ramme for opbevaring og forespørgsler data. Struktureret, semi-struktureret og / eller ustrukturerede data lagres og distribueres på tværs af flere servere. Forespørgsler af data sker ved modificeret C ++ kaldet ECL som bruger anvender ordningen om læsning metode til at skabe struktur af lagrede data under tidspunktet for forespørgslen. I 2004 LexisNexis erhvervede Seisint Inc. og 2008 erhvervede ChoicePoint, Inc. og deres høje hastighed parallel behandling platform. De to platforme blev samlet i HPCC Systems og i 2011 var åbent købes under Apache v2.0 License. I øjeblikket HPCC og Quantcast File System er de eneste offentligt tilgængelige platforme er i stand til at analysere flere exabytes data.

I 2004 Google offentliggjorde et dokument om en proces, der kaldes MapReduce der brugt en sådan arkitektur. Rammerne MapReduce giver en parallel behandling model og tilhørende implementering til at behandle store mængder data. Med MapReduce er forespørgsler splittet og fordelt på parallelle noder og behandles parallelt. Resultaterne samles derefter og leveres. Rammerne var meget vellykket, så andre ønskede at replikere algoritmen. Derfor blev en implementering af rammerne MapReduce vedtaget af en Apache open source-projekt ved navn Hadoop.

MIKE2.0 er en åben tilgang til informationsstyring, der erkender behovet for revisioner grundet big data konsekvenser en artikel med titlen "Big data Solution Udbuddet". Metodologien adresser håndterer store data i form af nyttige permutationer af datakilder, kompleksitet i indbyrdes, og svært ved at slette de enkelte poster.

Nylige undersøgelser viser, at anvendelsen af ​​et lag arkitektur multipel er en mulighed for at behandle store data. Den Distributed Parallel arkitektur distribuerer data på tværs af flere behandlingsenheder og parallelle behandlingsenheder levere data meget hurtigere, ved at forbedre forarbejdning hastigheder. Denne type arkitektur indsætter data i en parallel DBMS, som implementerer brugen af ​​MapReduce og Hadoop rammer. Denne type ramme ser ud til at gøre regnekraft transparent for slutbrugeren ved hjælp af en frontend applikationsserver.

Teknologier

Big data kræver ekstraordinære teknologier til effektivt at behandle store datamængder inden for acceptable forløbet gange. En 2011 McKinsey rapport foreslår egnede teknologier omfatter A / B-test, crowdsourcing, data fusion og integration, genetiske algoritmer, machine learning, naturlig sprogbehandling, signalbehandling, simulation, tidsserie analyse og visualisering. Flerdimensionale store data kan også repræsenteres som tensorer, som kan mere effektivt håndteret af tensor-baserede beregning, såsom multilineær underrum læring. Yderligere teknologier anvendes til store data omfatter massivt parallelle forarbejdning databaser, søgning-baserede applikationer, data mining, distribuerede filsystemer, distribuerede databaser, cloud baserede infrastruktur og internettet.

Nogle, men ikke alle MPP relationelle databaser har evnen til at lagre og håndtere petabyte data. Implicit er evnen til at indlæse, monitor, op igen, og optimere anvendelsen af ​​de store datatabeller i RDBMS.

DARPA s Topologisk Data Analysis program søger den grundlæggende struktur i store datamængder og i 2008 den teknologi gik offentligt med lanceringen af ​​et selskab kaldet Ayasdi.

De udøvere af big data analytics processer er generelt fjendtligt indstillet over for langsommere fælles opbevaring, foretrækker direkte attached storage i dens forskellige former fra SSD-drevet til høj kapacitet SATA disk begravet inde parallelle behandling noder. Opfattelsen af ​​fælles hukommelse arkitekturer Opbevaring netværk og netværk-attached storage, er, at de er relativt langsomme, komplekse og dyre. Disse kvaliteter er ikke i overensstemmelse med big data analytics systemer, der trives på systemets ydeevne, råvare infrastruktur, og lave omkostninger.

Virkelige eller næsten realtidsinformation levering er et af de definerende karakteristika for big data analytics. Latenstid derfor undgås, når og hvor det er muligt. Data i hukommelsen er gode data på spinning disk i den anden ende af en FC SAN-forbindelsen ikke er. Omkostningerne ved et SAN på skalaen nødvendig for analytics applikationer er meget højere end andre oplagringsteknikker.

Der er fordele og ulemper for delt storage i big data analytics, men big data analytics udøvere fra 2011 ikke begunstiger den.

Forskningsaktiviteter

Krypteret søgning og klyngedannelse i big data blev demonstreret marts 2014 på American Society of Engineering Education. Gautam Siwach engageret på Imødegåelse af udfordringerne af Big Data efter MIT datalogi og kunstig intelligens Laboratory og Dr. Amir Esmailpour på UNH Research Group undersøgt de centrale elementer i store data dannelse af klynger og deres indbyrdes forbindelser. De fokuserede på sikkerheden af ​​big data og den faktiske orientering af udtrykket mod tilstedeværelsen af ​​forskellige typer data i en krypteret form ved cloud-interface ved at levere de rå definitioner og real time eksempler inden for teknologien. Desuden foreslog de en tilgang til identifikation af kodning teknik til at rykke i retning af en fremskyndet søgning i krypteret tekst fører til sikkerhedsforbedringer i store data.

I marts 2012, offentliggjorde Det Hvide Hus en national "big data-initiativet", der bestod af seks føderale departementer og organer begår mere end $ 200 millioner til store data forskningsprojekter.

Initiativet omfattede en National Science Foundation "Ekspeditioner i Computing" tilskud på $ 10 millioner over 5 år til AMPLab på University of California, Berkeley. Den AMPLab også modtaget midler fra DARPA, og over en halv snes industrielle sponsorer og bruger store data til at angribe en bred vifte af problemer fra forudsige trafikpropper til at bekæmpe kræft.

Det Hvide Hus Big data Initiative indeholdt også en forpligtelse for Department of Energy til at give $ 25000000 i støtte over 5 år at etablere Scalable Data Management, Analyse og visualisering Institut, ledet af Energy instituttets Lawrence Berkeley National Laboratory. Den SDAV Instituttet har til formål at samle ekspertisen i seks nationale laboratorier og syv universiteter for at udvikle nye værktøjer til at hjælpe forskerne styre og visualisere data på instituttets supercomputere.

Den amerikanske stat Massachusetts annoncerede Massachusetts Big data initiativ inden 2012, som giver støtte fra delstatsregeringen og private virksomheder til en række forskningsinstitutioner. Massachusetts Institute of Technology er vært for Intel Videnskab og Teknologi Center for Big Data MIT datalogi og kunstig intelligens Laboratory, der kombinerer offentlige, virksomhedernes, og institutionel finansiering og forskningsindsats.

Europa-Kommissionen finansierer 2 år lange Big data Offentligt Privat forum gennem deres syvende rammeprogram til at engagere virksomheder, akademikere og andre interessenter i at diskutere big data spørgsmål. Projektets formål er at fastlægge en strategi med hensyn til forskning og innovation til at guide støtteforanstaltninger fra Europa-Kommissionen i den vellykkede gennemførelse af big data økonomi. Resultater af dette projekt vil blive brugt som input til Horisont 2020, deres næste rammeprogram.

Den britiske regering annonceret i marts 2014 grundlæggelsen af ​​Alan Turing Institute, opkaldt efter at computeren pioner og kode-breaker, som vil fokusere på nye måder at indsamle og analysere store datasæt.

På University of Waterloo Stratford Campus Canadian Open data Experience Inspiration Day, blev det demonstreret, hvordan ved hjælp af data visualisering teknikker kan øge forståelsen og appel af store datasæt med henblik på at formidle en historie til verden.

For at gøre produktion mere konkurrencedygtig i USA, er der behov for at integrere mere amerikansk opfindsomhed og innovation i fremstilling; Derfor har National Science Foundation tildelt Industri Universitet kooperativ forskningscenter for Intelligente Maintenance Systems på universitetet i Cincinnati til at fokusere på udvikling af avancerede forudsigende værktøjer og teknikker til at være gældende i et big data miljø. I maj 2013 afholdt IMS center en industri rådgivende bestyrelsesmøde med fokus på big data, hvor oplægsholdere fra forskellige industrivirksomheder diskuterede deres bekymringer, problemer og fremtidige mål i Big data miljø.

Computational samfundsvidenskab Alle kan bruge Application Programming Interfaces leveres af big data indehavere, såsom Google og Twitter, til at forske i de sociale og adfærdsmæssige videnskaber. Ofte er disse API'er leveres gratis. Tobias Preis et al. brugte Google Trends data til at påvise, at Internet-brugere fra lande med et bruttonationalprodukt højere per capita er mere tilbøjelige til at søge efter information om fremtiden, end oplysninger om fortiden. Resultaterne tyder på, at der kan være en sammenhæng mellem online adfærd og den virkelige verden økonomiske indikatorer. Forfatterne til undersøgelsen undersøgte Google forespørgsler logs fra forholdet mellem mængden af ​​søgninger for det kommende år til mængden af ​​søgninger for det foregående år, som de kalder den "fremtidige orientering indeks". De sammenlignede den fremtidige retningslinjer indekset til BNP per capita i hvert land og fandt en stærk tendens til lande, hvor Google-brugere spørge mere om fremtiden at udvise en højere BNP. Resultaterne antyder, at der potentielt kan være en sammenhæng mellem den økonomiske succes i et land, og de oplysninger-søger adfærd af sine borgere fanget i store data.

Tobias Preis og hans kolleger Helen Susannah voldgrav og H. Eugene Stanley indført en metode til at identificere online forstadier til aktiemarkedet bevæger sig, ved hjælp af handel strategier baseret på søgevolumen data fra Google Trends. Deres analyse af Google søgevolumen for 98 form af varierende økonomisk relevans, offentliggjort i videnskabelige rapporter tyder på, at stigninger i søgevolumen for økonomisk relevante søgetermer tendens til at gå forud for store tab på de finansielle markeder.

Applikationer

Produktion

Baseret på TCS 2013 Global Trend Study, forbedringer i planlægningen udbud og produktkvalitet giver den største fordel af store data til produktion. Big data giver en infrastruktur for gennemsigtighed i fremstillingsindustrien, hvilket er evnen til at trævle usikkerheder såsom uoverensstemmende komponent ydeevne og tilgængelighed. Predictive produktion som en relevant tilgang mod nær nul nedetid og gennemsigtighed kræver store datamængder og avancerede forudsigelsesværktøjer for en systematisk proces med data til nyttig information. En begrebsramme af prædiktiv produktion begynder med datafangst, hvor forskellige typer af sensoriske data er tilgængelige til at erhverve, såsom akustik, vibration, tryk, strøm, spænding og controller-data. Enorme beløb af sensoriske data ud over historiske data konstruere de store data i fremstillingssektoren. Den genererede big data fungerer som input til forudsigende værktøjer og forebyggende strategier såsom prognostificering og Health Management.

Kritik

Kritik af big data paradigme kommer i to varianter, dem, der spørgsmålstegn ved konsekvenserne af den tilgang, selv, og dem, der spørgsmålstegn ved den måde, det er i øjeblikket gjort.

Kritik af den store data paradigme

"Et afgørende problem er, at vi ikke ved ret meget om de bagvedliggende empiriske mikro-processer, der fører til fremkomsten af ​​de typiske netkarakteristika af Big data". I deres kritik, Snijders, MATZAT og Reips påpeger, at der ofte meget stærke antagelser er lavet om matematiske egenskaber, der kan slet ikke afspejler, hvad der virkelig foregår på niveau med mikro-processer. Mark Graham er fladet brede kritik på Chris Andersons påstand om, at store data vil betyde enden af ​​teori: med særlig fokus på forestillingen om, at big data altid vil være nødvendigt at kontekstualiseret i deres sociale, økonomiske og politiske sammenhænge. Selv som virksomheder investerer otte og ni-tal summer til at udlede indsigt fra oplysninger streaming i fra leverandører og kunder, mindre end 40% af medarbejderne har tilstrækkeligt modne processer og færdigheder til at gøre det. For at overvinde denne indsigt underskud, "big data", uanset hvor omfattende eller godt analyseret, skal suppleres med "big dom", ifølge en artikel i Harvard Business Review.

Meget på samme linje, er det blevet påpeget, at de beslutninger baseret på en analyse af big data uundgåeligt er "informeret af verden, som den var i fortiden, eller i bedste fald som det i øjeblikket er". Fodret af en lang række data om tidligere erfaringer, kan algoritmer forudsige den fremtidige udvikling, hvis fremtiden er magen til fortiden. Hvis systemer dynamik fremtidens forandringer, kan fortiden sige lidt om fremtiden. Til dette, ville det være nødvendigt at have en grundig forståelse af systemerne dynamiske, hvilket indebærer teori. Som svar på denne kritik er det blevet foreslået at kombinere big data tilgange med computersimuleringer, såsom agent-baserede modeller. Agent-baserede modeller er i stigende grad at blive bedre til at forudsige udfaldet af sociale komplekse selv ukendte fremtidsscenarier gennem computersimuleringer, der er baseret på en samling af indbyrdes afhængige algoritmer. Hertil kommer, brug af multivariate metoder, sonde til den latente struktur data, såsom faktor analyse og cluster analyse, har vist sig nyttig som analytiske tilgange, der går langt ud over de bi-variate tilgange typisk ansat med mindre datasæt.

I sundhed og biologi, er konventionelle videnskabelige tilgange baseret på eksperimenter. For disse tilgange, den begrænsende faktor er de relevante data, der kan bekræfte eller afkræfte den indledende hypotese. En ny postulat er nu accepteret i biovidenskab: de oplysninger, som data i store mængder uden forudgående hypotese er komplementære og nogle gange nødvendigt at konventionelle metoder baseret på eksperimenter. I den massive tilgang er formuleringen af ​​en relevant hypotese til at forklare de data, der er den begrænsende faktor. Søgningen logik er vendt, og grænserne for induktion, der skal overvejes.

Beskyttelse af personlige oplysninger fortalere er bekymrede over truslen mod privatlivets fred er repræsenteret ved at øge opbevaring og integration af personligt identificerbare oplysninger; ekspertpaneler har udgivet forskellige politiske henstillinger til at tilpasse praksis til forventninger om privatlivets fred.

Kritik af henrettelse big data

Big data er blevet kaldt en "dille" i videnskabelig forskning og dens anvendelse blev endda gjort nar af som en absurd praksis i en satirisk eksempel på "svin data". Forsker Danah Boyd har rejst bekymring om brugen af ​​store data inden for videnskab forsømme principper såsom at vælge en repræsentativ stikprøve ved at være alt for bekymrede over faktisk at håndtere de enorme mængder af data. Denne fremgangsmåde kan føre til resultater skævheder i den ene eller anden måde. Integration på tværs af heterogene dataressourcer nogle, der kan betragtes som "big data" og andre ikke præsenterer formidabel logistiske såvel som analytiske udfordringer, men mange forskere hævder, at sådanne integrationer sandsynligvis repræsentere de mest lovende nye grænser inden for videnskab. I det provokerende artiklen "kritiske spørgsmål til big data", forfatterne titel big data en del af mytologien: "store datasæt tilbyde en højere form for intelligens og viden, med den aura af sandhed, objektivitet og nøjagtighed". Brugere af store data er ofte "tabt i den store mængde af numre", og "at arbejde med Big Data, er stadig subjektive, og hvad den kvantificerer ikke nødvendigvis have et nærmere krav om objektiv sandhed". Den seneste udvikling i BI-domæne, såsom proaktiv rapportering især rettet mod forbedringer i anvendeligheden af ​​Big Data gennem automatiseret filtrering af ikke-brugbare data og sammenhænge.

Big dataanalyse er ofte lavt i forhold til analyse aff mindre datasæt. I mange big data-projekter, er der ingen store dataanalyse sker, men udfordringen er ekstraktet, transformere, belastning del af data forbehandling.

Big data er et buzzword og en "vag udtrykket", men på samme tid en "besættelse" med iværksættere, konsulenter, forskere og medierne. Big data showcases såsom Google Flu Trends undladt at levere gode forudsigelser i de seneste år, overdrive influenza udbrud med en faktor to. Tilsvarende Academy Awards og valg forudsigelser udelukkende baseret på Twitter var oftere ud end på målet. Big data ofte stiller de samme udfordringer som små data; og tilføje flere data løser ikke problemerne med bias, men kan fremhæve andre problemer. Især datakilder som Twitter er ikke repræsentative for den samlede befolkning, og resultater hentet fra sådanne kilder kan så føre til forkerte konklusioner. Google Translate - som er baseret på big data statistisk analyse af tekst - har en bemærkelsesværdig godt stykke arbejde på at oversætte websider, men for specialiserede domæner resultaterne kan være dårligt slukket. På den anden side kan store data også indføre nye problemer, såsom sammenligninger problem multiple: samtidig at teste et stort sæt af hypoteser er tilbøjelige til at producere mange falske resultater, der fejlagtigt synes at være betydelig. Ioannidis hævdede, at "de fleste offentliggjorte forskningsresultater er falske" på grund af væsentlige den samme effekt: når mange forskerhold og forskere hver udfører mange eksperimenter, er sandsynligheden for en "betydelig" resultat bliver faktisk falsk vokser hurtigt - i endnu højere grad, når der kun positive Resultaterne er publiceret.

  0   0
Forrige artikel Comodo System Utilities
Næste artikel Andy Platt

Kommentarer - 0

Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha