GESTRUCTUREERDE DATA
Bij gestructureerde data kunt u denken aan gegevens die op een vaste manier met bijbehorende structuur worden opgeslagen. Het voordeel van deze wijze van werken is dat de informatie praktisch te vinden en gemakkelijk te verwerken is.
In de meeste bedrijven wordt van dit soort data gebruik gemaakt om informatie te ontginnen. Deze vorm van data ligt vaak opgeslagen in operationele databases, spreadsheets, etc.
Kolommen (velden) zijn voorgedefinieerd en de links (sleutels) tussen de velden zijn goed gedefinieerd. Met relatief weinig inspanning kunnen relaties worden gelegd en analysebestanden worden gevormd.
ONGESTRUCTUREERDE DATA
Aan de andere kant van het spectrum vinden we ongestructureerde data waarbij te denken valt aan data die gegenereerd worden zonder te voldoen aan vaste formaten in de veldstructuren.
Deze hoeveelheid is vele malen groter dan die van gestructureerde data.
Het is data die niet direct toepasbaar is in analyse.
Bijvoorbeeld: algemene velden, documenten, foto’s, films, presentaties, email, klachten, tweets etc.
Voor er een analyse kan worden gedaan moeten de afzonderlijke waarden of reeksen van woorden (n-grams) worden geconverteerd naar kolommen in een analysebestand.
Dit betekent dat tekstdata moeten worden genormaliseerd. Je moet hierbij denken aan het uniformiseren van hoofd- en kleine letters, stopwoorden…
Tegenwoordig is er heel veel data afkomstig uit apparaten. De laatste jaren worden er heel veel toestellen geproduceerd die verbonden worden met internet. Deze data is meestal ongestructureerd.