Βασικός στόχος του μαθήματος είναι να εξοικειώσει τους φοιτητές, σε επίπεδο θεωρίας και πράξης, με την αποδοτική διαχείριση των δεδομένων μεγάλου όγκου (big data) και να τους καταστήσει ικανούς να υποστηρίζουν την αποτελεσματική επεξεργασία τους σε επιχειρησιακό επίπεδο. Στην ύλη του μαθήματος περιλαμβάνεται η διδασκαλία:
- Συγκεκριμένων προχωρημένων δυνατοτήτων των γλωσσών συναρτησιακού προγραμματισμού Scala/Python with Notebook (Jupyter, Zeppelin, Databricks).
- Σύγχρονων αρχιτεκτονικών συστημάτων επεξεργασίας δεδομένων μεγάλου όγκου (π.χ. MapReduce, Hadoop, HDFS, Amazon S3).
- Των χαρακτηριστικών των NoSQL – NewSQL βάσεων δεδομένων, σύγκριση των δυνατοτήτων τους (π.χ. column-oriented vs row-oriented databases) και εξοικείωση με τις βασικότερες από αυτές (π.χ. HBase, MongoDB, MemSQL, Cassandra).
- Της Αναλυτικής των δεδομένων μεγάλου όγκου και των κυριότερων σχετικών τεχνικών, μεθόδων και τεχνολογιών (π.χ. batch vs streaming processing, Spark, Ηive , Apache Spark, Spark Structured Streaming, Spark MLib).
- Της Γραφικής Επεξεργασίας (Graph Processing) των δεδομένων μεγάλου όγκου (π.χ. Spark GraphX, Spark GraphFrames)
- Των ολοκληρωμένων οικοσυστημάτων (ecosystem) των δεδομένων μεγάλου όγκου και των κυριότερων εργαλείων/υποσυστημάτων τους (π.χ. Sqoop, Flume, Kafka, NiFi).
Κωδικός Μαθήματος: 203