NOW 19

ΣΕΠΤΕΜΒΡΙΟΣ 2020 #11 ανάλυσή τους, υπήρχε εδώ και πολύ καιρό. Όμως, η έννοια των με- γάλων δεδομένων απέκτησε δυναμική στις αρχές της δεκαετίας του 2000, όταν ο αναλυτής του κλάδου Doug Laney διατύπωσε τον σημερινό ορισμό του Big Data που βασίζεται στα πέντε V, Volume, Velocity, Variety, Value και Veracity, τα οποία αποτελούν και τα χαρα- κτηριστικά αυτής της τεχνολογίας. Volume (Όγκος): Οι οργανισμοί συλλέγουν δεδομένα από μια ποι- κιλία διαφορετικών πηγών, συμπεριλαμβανομένων επιχειρηματικών συναλλαγών, έξυπνων συσκευών (IoT), βιομηχανικού εξοπλισμού, video, social media και άλλων ακόμα μέσων. Κατά το παρελθόν, η αποθήκευση τέτοιων δεδομένων θα ήταν πρόβλημα, όμως οι νέες τεχνολογίες (όπως το ανοιχτού κώδικα λογισμικό Hadoop) έχουν μειώσει το φορτίο τους. Επιπλέον, για να μπορεί πραγματικά να θεω- ρηθεί ως Big Data ή όχι ένα συγκεκριμένο σύνολο δεδομένων, λαμ- βάνεται υπόψη ο όγκος που διαθέτει. Velocity (Ταχύτητα): Με την ανάπτυξη του Διαδικτύου των Πραγ- μάτων (IoT), οι ροές δεδομένων προς τις επιχειρήσεις διοχετεύονται με πρωτοφανή ταχύτητα κι έτσι πρέπει να αντιμετωπίζονται έγκαι- ρα. Ο όρος velocity αναφέρεται στην ταχύτητα παραγωγής δεδομέ- νων, καθώς η ροή τους είναι τεράστια και συνεχής. Το πόσο γρήγο- ρα δημιουργούνται τα δεδομένα και υποβάλλονται σε επεξεργασία για την ικανοποίηση των εκάστοτε απαιτήσεων, καθορίζει το πραγ- ματικό δυναμικό τους. Το velocity ασχολείται με την ταχύτητα ροής δεδομένων από διάφορες πηγές, όπως επιχειρηματικές διαδικασίες, αρχεία καταγραφής εφαρμογών, δίκτυα και ιστότοπους των social media, αισθητήρες, φορητές συσκευές και άλλα ακόμα μέσα. Variety (Ποικιλία): Τα δεδομένα διατίθενται σε όλους τους τύπους μορφών, από δομημένα σύνολα δεδομένων και αριθμητικά δεδομέ- να σε παραδοσιακές βάσεις δεδομένων, έως μη δομημένα έγγραφα κειμένου, email, video, ήχους, δεδομένα μετοχών και χρηματοοικο- νομικές συναλλαγές. Γενικά, ο όρος variety αναφέρεται σε ετερογε- νείς πηγές και στη φύση των δεδομένων, τόσο δομημένων όσο και μη δομημένων. Παλαιότερα, τα υπολογιστικά φύλλα και οι βάσεις δε- δομένων ήταν οι μόνες πηγές δεδομένων που εξετάζονταν από τις περισσότερες εφαρμογές. Ενώ σήμερα, στις εφαρμογές ανάλυσης εξετάζονται επίσης δεδομένα από μηνύματα ηλεκτρονικού ταχυδρο- μείου, φωτογραφίες, video, συσκευές παρακολούθησης, αρχεία PDF, ήχου κ.λπ. Αυτή η ποικιλία των μη δομημένων δεδομένων δημιουργεί συγκεκριμένα ζητήματα συλλογής, αποθήκευσης και ανάλυσής τους. Value (Αξία): Λόγω του τεράστιου όγκου δεδομένων που πρέπει να υποβάλλονται σε επεξεργασία, πρέπει να δίνεται ιδιαίτερη προ- σοχή στην επιλογή των δεδομένων που είναι ζωτικής σημασίας για την εταιρεία και τις μελλοντικές της δραστηριότητες. Ένας σωστός προσδιορισμός στόχων και στρατηγικής πριν από την αποθήκευση δεδομένων, θα εξοικονομήσει αρκετό από τον υπολογιστικό χρόνο και θα διευκολύνει τη μακροπρόθεσμη διαχείρισή τους. Veracity (Εγκυρότητα): Ο όρος veracity αναφέρεται στην εγκυρό- τητα των δεδομένων και η τροφοδοσία των Big Data πρέπει να προ- έρχεται από σχετικές και αληθείς πηγές. Επειδή τα δεδομένα αυτά μπορούν να προέρχονται από τόσες πολλές διαφορετικές πηγές, Ο όγκος των δεδομένων που παράγεται καθημερινά είναι τεράστιος. 1 Το Big Data χαρακτηρίζεται από τα 5 V. 2

RkJQdWJsaXNoZXIy NjE3Njcz