The course of Big Data (6 credits) will be given in Spring 2021 by
Prof. Riccardo Torlone.
The course aims at illustrating tools and methods for the management
of big data, i.e. massive amounts of unstructured data whose size
exceed the capacity of conventional database management systems to
capture, store, manage and analyze. Starting from the requirements of
modern applications, the course addresses the problems of storing and
processing big data and illustrate the hardware and software solutions
to these problems that have been proposed in recent years. The course
will include a number of exercises with real systems and some
practical projects. Moreover, guest lectures on Big Data use cases and
business seminars will be given during the course. The main topics
will include: Distribute computing; Cloud computing; Data
lakes; Hadoop & Map-reduce; Spark; Big data tools for data
ingestion and management such as Kafka, Hive, Giraph, Storm, MLlib,
and Open R; NoSQL database systems; Tools for Data analytics; Open
data; Applications, such as: Social networks and Precision farming.
Il corso Big Data (6 CFU) per il Corso di Laurea Magistrale in Ingegneria Informatica verrà tenuto nel secondo semestre dell'anno accademico 2019/2020 dal Prof. Riccardo Torlone. Il corso mira a illustrare le moderne soluzioni tecniche e metodologiche al problema della gestione dei big data, ovvero collezioni di dati destrutturati le cui dimensioni superano le capacità di memorizzazione, gestione e analisi tipiche dei tradizionali sistemi per basi di dati. Partendo dai requisiti delle moderne applicazioni, verranno affrontate le diverse problematiche di memorizzazione e uso dei big data, illustrando le soluzioni hardware e software che sono state proposte per la loro gestione. Durante il corso verranno coniugati aspetti metodologici e tecnologici mediante esercitazioni pratiche con l'ausilio di sistemi reali, seminari aziendali e progetti pratici. Gli argomenti trattati includono: Computer clusters; Cloud computing; Data lakes; Hadoop & Map-reduce; Spark; strumenti per la gestione di Big data tools quali Kafka, Hive, Giraph, Storm, MLlib, e Open R; NoSQL database systems; Strumenti per il Data analytics; Open data; Applicazioni, tra cui: Social networks e agricoltura di precisione.
Non ci sono ma è molto utile aver seguito Basi di dati II. Il corso di Analisi e Gestione delle informazioni su Web arricchisce e completa i contenuti del corso Big Data. Verrà svolto un opportuno coordinamento con questo corso per la presenza di alcuni argomenti di interesse comune.
Il corso verrà svolto nel secondo semestre (marzo-giugno 2021). Le lezioni si tengono online il lunedì e il mercoledì alle ore 11:00.
Per lo svolgimento di esercitazioni e progetti il corso farà uso di risorse hardware messe a disposizione dal Dipartimento di Ingegneria. Sarà anche possibile far uso di risorse di Amazon Web Services: tutti gli studenti di Roma Tre possono infatti ricevere un credito facendone richiesta tramite il programma AWS Educate.
E’ disponibile un gruppo di discussione su Facebook chiamato Big Data @ Roma Tre. Può essere utilizzato liberamente dagli studenti del corso come forum di discussione sugli argomenti trattati, sugli esercizi e sugli homework.