Apache Spark™
Dal suo rilascio, Apache Spark, il motore di analisi unificato, è stato adottato rapidamente da aziende in tutti i settori. Colossi di Internet come Netflix, Yahoo e eBay hanno implementato Spark su larghissima scala, elaborando collettivamente svariati petabyte di dati su cluster con oltre 8.000 nodi. Dal progetto è nata in poco tempo la più grande community open-source nel mondo dei Big Data, con più di 1.000 contributori appartenenti a oltre 250 organizzazioni.
Apache Spark è 100% open-source, gestito dalla Apache Software Foundation, un'entità indipendente da qualsiasi vendor. In Databricks siamo totalmente impegnati a mantenere questo modello di sviluppo aperto. Insieme alla community di Spark, Databricks continua a dare un grande contributo al progetto Apache Spark con attività di sviluppo e formazione della community.
Molti data scientist, analisti e utenti generici di business intelligence utilizzano query SQL interattive per esplorare i dati. Spark SQL è un modulo Spark per l'elaborazione di dati strutturati, che offre un'astrazione di programmazione chiamata DataFrames e può fungere anche da motore query SQL distribuito. Il modulo consente di eseguire query Hadoop Hive non modificate con velocità fino al 100% superiori su implementazioni e dati esistenti. Inoltre, si integra strettamente con il resto dell'ecosistema Spark (ad es. integrando l'elaborazione delle query SQL con il machine learning).
Molte applicazioni devono avere la capacità di elaborare e analizzare non solo dati in batch, ma anche flussi di nuovi dati in tempo reale. Girando su Spark, Spark Streaming consente di realizzare applicazioni di analisi interattive e potenti su dati storici e flussi in tempo reale, ereditando da Spark la facilità d'uso e la tolleranza agli errori. Si integra direttamente con un'ampia gamma di sorgenti di dati diffuse, fra cui HDFS, Flume, Kafka e Twitter.
Il machine learning si è affermato rapidamente come elemento chiave per "scavare" nei Big Data ed estrarre informazioni approfondite fruibili. Costruita su Spark, MLlib è una libreria di machine learning scalabile che offre algoritmi di alta qualità (ad es., iterazioni multiple per aumentare la precisione) e velocità fulminea (fino a 100 volte più veloce di MapReduce). La libreria è utilizzabile in Java, Scala e Python nell'ambito di applicazioni Spark, in modo che possa essere inclusa in flussi di lavoro completi.
GraphX è un motore per l'elaborazione di grafici costruito su Spark che offre una modalità interattiva per costruire, trasformare e analizzare dati strutturati in forma di grafico su larga scala. GraphX è completo di una libreria di algoritmi comuni.
Spark Core è il motore generico sottostante alla piattaforma Spark, sul quale sono basate tutte le altre funzionalità. Fornisce capacità di calcolo in memoria per offrire velocità, un modello di esecuzione generalizzato per supportare svariate applicazioni, e API Java, Scala e Python per facilitare lo sviluppo.
Progettato fin dall'inizio nell'ottica delle prestazioni, Spark può raggiungere velocità 100 volte superiori ad Hadoop per l'elaborazione di dati su larga scala sfruttando il calcolo in memoria e altre ottimizzazioni. Spark è veloce anche quando i dati sono conservati su disco, tanto che attualmente detiene il record mondiale di classificazione dei dati su disco su larga scala.
Spark dispone di API facili da usare per operare su grandi set di dati, fra cui una collezione di oltre 100 operatori per trasformare dati e API data frame familiari per manipolare dati semi-strutturati.
Spark viene fornito completo di librerie di alto livello, incluso il supporto per query SQL, dati in streaming, machine learning ed elaborazione di grafici. Queste librerie standard aumentano la produttività degli sviluppatori e possono essere combinate fra loro per creare flussi di lavoro complessi.
Databricks Unified Analytics Platform offre prestazioni cinque volte superiori rispetto a Spark open-source, notebook collaborativi, flussi di lavoro integrati e sicurezza aziendale... tutto su una piattaforma in cloud completamente gestita.
Prova DatabricksIl progetto open-source Apache Spark può essere scaricato qui