Σύνολο εργαλείων αυτοματοποιημένης ανάλυσης και καθαρισμού Big Data.

Το Diastema παρέχει εργαλεία ανάλυσης και καθαρισμού δεδομένων για να εξυπηρετηθούν οι ανάγκες αυτών. Όλες οι υπηρεσίες θα περιλαμβάνονται στην αρχιτεκτονική με το δομικό στοιχείο “Δεδομένα ως Υπηρεσία” (Data as a Service). Αναλυτικότερα, αυτό το δομικό στοιχείο θα περιλαμβάνει τις παρακάτω υπηρεσίες:

  • Φόρτωση δεδομένων
  • Καθαρισμός δεδομένων
  • Κατάλογος αλγορίθμων ανάλυσης και μηχανικής μάθησης.

Η υπηρεσία “Φόρτωσης Δεδομένων” (Data Loading) έχει ως σκοπό να εισάγει στον αποθηκευτικό χώρο / μνήμη του συστήματος το σύνολο δεδομένων που επιθυμεί να επεξεργαστεί ο χρήστης. Η διαδικασία αυτή θα περιλαμβάνει την ανάκτηση αρχείων / δεδομένων από τις πηγές που έχουν οριστεί (π.χ. μεταφόρτωση αρχείων) και θα κανονικοποιούνται σε μια μορφή που θα είναι κατάλληλη για την επεξεργασία τους από τις υπόλοιπες υπηρεσίες. Επίσης, θα υπάρχει η δυνατότητα διασύνδεσης με άλλους χώρους αποθήκευσης δεδομένων μέσω πρωτοκόλλων όπως το JDBC.

Η υπηρεσία “Καθαρισμού Δεδομένων” (Data Cleaning) έχει ως σκοπό την απλοποίηση και καθαρισμό του συνόλου των δεδομένων με σκοπό την καλύτερη εκπαίδευση των αλγορίθμων ανάλυσης και μηχανικής μάθησης, με αποτέλεσμα μεγαλύτερα ποσοστά ακρίβειας από τα μοντέλα. Ταυτόχρονα, η υπηρεσία θα φροντίζει για την επαλήθευση των δεδομένων, δηλαδή εάν οι τιμές  του συνόλου ακολουθούν κανόνες που μπορεί να έχει ορίσει ο χρήστης, ή κανόνες με βάση το προφίλ ενός σήματος το οποίο θα μπορεί να δημιουργείται από την στατιστική ανάλυση των μετρήσεων που εισάγονται στο σύστημα για μια συγκεκριμένη παράμετρο. Ο μηχανισμός για τη δημιουργία του προφίλ ενός σήματος θα είναι μέρος των δυνατοτήτων του συστήματος για τους αναλυτές. Το προφίλ ενός σήματος θα αποθηκεύεται σε μια JSON μορφή σε μια βιβλιοθήκη και θα μπορεί να ανακτάται για τον έλεγχο της ποιότητας των εισερχόμενων δεδομένων. Το προφίλ του σήματος θα περιλαμβάνει παραμέτρους όπως: ελάχιστη και μέγιστη τιμή, μέση τιμή, τυπική απόκλιση, ρυθμός μεταβολής και εύρος μετατόπισης. Οποιαδήποτε επόμενη χρονοσειρά του ίδιου σήματος θα ελέγχεται ως προς το συγκεκριμένο προφίλ και οι μετρήσεις που δεν θα συνάδουν με αυτό, θα χαρακτηρίζονται και θα αφαιρούνται από την χρονοσειρά.

Η υπηρεσία “Καταλόγου Αλγορίθμων Ανάλυσης” (Data Analytics Catalogue) έχει ως σκοπό να παρέχει στον χρήστη μια γκάμα από επιλεγμένους ισχυρούς αλγορίθμους ανάλυσης και μηχανικής μάθησης για να χρησιμοποιήσει στην ανάλυση του. Αυτοί οι αλγόριθμοι παρέχονται στο Diastema από γνωστά εργαλεία και βιβλιοθήκες ανάλυσης δεδομένων όπως το Apache MLlib και το TensorFlow. Η υπηρεσία ενισχύεται από την έξυπνη διαχείριση εργασιών και υπολογιστικής δύναμης που θα διαθέτει το Diastema με σκοπό να ελαχιστοποιείται ο χρόνος αναμονής εκπαίδευσης κάθε μοντέλου.

Σχετικές αναρτήσεις