Glossary
Was ist eine Transaktion? Im Kontext von Datenbanken und Datenspeichersystemen ist eine Transaktion jede Operation, die als eine einzelne Arbeitseinheit behandelt wird, die entweder vollständig abgeschlossen wird oder überhaupt nicht abgeschlossen wi{...}
Der Gradientenabstieg ist die am häufigsten verwendete Optimierungsmethode für Machine-Learning- und Deep-Learning-Algorithmen. Er wird verwendet, um ein Machine-Learning-Modell zu trainieren. Arten des Gradientenabstiegs Es gibt drei Hauptarten des {...}
Was sind alternative Daten? Alternative Daten sind Informationen, die aus alternativen Datenquellen gewonnen werden, die andere nicht nutzen; d. h., aus nicht-konventionellen Datenquellen. Analysen alternativer Daten können Erkenntnisse lie{...}
Was ist Apache Hive? Apache Hive ist eine Open-Source-Data-Warehouse-Software zum Lesen, Schreiben und Verwalten großer Datasets, die aus dem Apache Hadoop Distributed File System (HDFS) (HDFS) extrahiert wurden, eine Komponente eines größeren Hadoop{...}
Was ist Apache Kudu? Apache Kudu ist ein kostenloses und spaltenorientiertes Open-Source-Speichersystem, das für Apache Hadoop entwickelt wurde. Es handelt sich um eine Engine für strukturierte Daten, die zufälligen Zugriff mit niedriger Latenz im Mi{...}
Was ist Apache Kylin? Apache Kylin ist eine verteilte Open-Source-OLAP-Engine (Online Analytical Engine) für interaktive Analysen von Big Data. Apache Kylin wurde entwickelt, um eine SQL-Schnittstelle und mehrdimensionale Analyse (OLAP) auf Hadoop/Sp{...}
Was ist Apache Spark? Apache Spark ist eine Open-Source-Analyse-Engine, die für Big-Data-Workloads verwendet wird. Spark bewältigt Analysen und Datenverarbeitungsaufgaben sowohl im Batch-Verfahren als auch in Echtzeit. Seinen Anfang nahm es 2009 als {...}
Was ist Apache Spark-as-a-Service? Apache Spark ist ein Open-Source-Cluster-Computing-Framework für dschnelle Echtzeit-Datenverarbeitung in großen Stil. Seit seinen Anfängen im Jahr 2009 im AMPLab der UC Berkeley hat Spark ein beachtliche Entwic{...}
Artificial general intelligence (AGI) refers to a hypothetical form of artificial intelligence (AI) capable of performing the full range of human-level intellectual tasks. More specifically, artificial general intelligence refers to systems with broa{...}
Was ist Automation Bias? Als Automation Bias bezeichnet man ein übermäßiges Vertrauen in automatisierte Hilfsmittel und Systeme zur Entscheidungsfindung. Mit der zunehmenden Verfügbarkeit automatisierter Entscheidungshilfen werden diese immer häufige{...}
Was sind Bayes'sche neuronale Netze? Bayesianische neuronale Netzwerke (BNNs) sind eine Erweiterung von Standardnetzwerken durch posteriore Inferenz, um Überanpassung zu kontrollieren. Aus einer übergeordneten Perspektive verwendet der bayessche Ansa{...}
Was ist die Evaluierung von KI-Agents? Ein umfassender LeitfadenDie Evaluierung von KI-Agents ist die Disziplin, die misst, wie effektiv ein autonomes KI-System Tasks ausführt, seine eigenen Entscheidungen lenkt, mit Tools interagiert, über mehrere S{...}
Der Unterschied zwischen Datenanalyse und Big Data Analytics Vor der Erfindung von Hadoop waren die Technologien, die den modernen Speicher- und Rechensystemen zugrunde liegen, relativ schlicht. Daher waren die Unternehmen meist auf die Analyse von „{...}
Die Bioinformatik ist ein Forschungsgebiet, in dem Berechnungen eingesetzt werden, um Wissen aus großen Sammlungen biologischer Daten zu extrahieren. Als „Bioinformatik“ bezeichnet man die Nutzung der IT in der Biotechnologie zum Speichern, Abrufen, {...}
Was ist Business Intelligence?Business Intelligence (BI) umfasst Technologien, Prozesse und Strategien, die darauf ausgelegt sind, Geschäftsdaten zu analysieren und handlungsrelevante Erkenntnisse zu generieren. BI-Systeme verwandeln Rohdaten in auss{...}
Business Intelligence (BI) umfasst eine Reihe von Technologien, Prozessen und Strategien, die darauf ausgelegt sind, handlungsrelevante Erkenntnisse aus Geschäftsdaten zu gewinnen. BI-Systeme erfassen und speichern Rohdaten aus dem laufenden Geschäft{...}
Das Herzstück von Spark SQL ist Catalyst Optimizer. Dieser Optimierer nutzt fortschrittliche Funktionen der Programmiersprache (z. B. das Pattern-Matching aus Scala oder Quasiquotes) auf innovative Weise, um einen erweiterbaren Abfrageoptimierer{...}
Was sind Compound-KI-Systeme? Laut der Definition im Blog von Berkeley AI Research (BAIR) handelt es sich bei Compound-KI-Systemen um solche, die KI-Aufgaben durch die Kombination mehrerer interagierender Komponenten bewältigen. Diese Komponenten kön{...}
Was ist Data Governance? Als Data Governance wird die Kontrolle bezeichnet, mit der sichergestellt werden soll, dass Daten Mehrwert schaffen und die Geschäftsstrategie unterstützen. Data Governance ist mehr als nur ein Tool oder ein Prozess: Sie rich{...}
What is data integration?Data integration is the process of combining data from multiple systems into a unified, reliable view. It brings together information from databases, applications, event streams, files, APIs and third-party platforms so organ{...}
Was ist ein Data Lakehouse? Ein Data Lakehouse ist eine neuartige, offene Datenverwaltungsarchitektur, die die Flexibilität, Kosteneffizienz und Skalierbarkeit von Data Lakes mit Datenverwaltungsfunktionen und ACID-Transaktionen von Data Warehouses k{...}
Was ist ein Data Marketplace oder Datenmarkt? Data Marketplaces oder Datenmärkte sind Onlineshops, die Data Sharing und Zusammenarbeit ermöglichen. Sie vernetzen Datenanbieter und Datenverbraucher und bieten den Teilnehmern die Möglichkeit, Daten und{...}
Was ist ein Data Mart?Ein Data Mart ist eine kuratierte Datenbank mit einer Reihe von Tabellen, die darauf ausgelegt sind, die spezifischen Anforderungen eines einzelnen Datenteams, einer Community oder eines Geschäftsbereichs wie der Marketing- oder{...}
Daten sind für Unternehmen von entscheidender Bedeutung – sie sind der Rohstoff für Innovation und Fortschritt. Mit der zunehmenden Ausrichtung auf daten- und entscheidungsbasierte Prozesse wächst ihre Relevanz und stellt Organisationen, die Sch{...}
Was ist ein Data Vault?Ein Data Vault ist ein Entwurfsmuster zur Datenmodellierung, das zum Erstellen eines Data Warehouse für unternehmensweite Analysen verwendet wird. Data Vaults sind in drei Kategorien eingeteilt: Hubs, Links und Satelliten.Hubs {...}
Was ist ein Data Warehouse? Ein Data Warehouse ist ein Datenverwaltungssystem, das aktuelle und historische Daten aus verschiedenen Quellen in einer unternehmensgerechten Weise speichert, um Einblicke und Berichte zu erleichtern. Data Warehouses komm{...}
Introduction: Understanding Database Schemas in Modern Data ManagementA database schema acts as a blueprint for how a database is organized and structured. It defines how database tables are laid out, what fields they contain and how those tables rel{...}
Databricks Runtime umfasst eine Anzahl von Softwareartefakten, die auf den von Databricks verwalteten Rechnerclustern ausgeführt werden. Sie enthält Spark, ergänzt es aber um eine Reihe von Komponenten und Updates, mit denen Benutzerfreundlichkeit, L{...}
Was ist ein DataFrame?Ein DataFrame ist eine Datenstruktur, die Daten in einer zweidimensionalen Tabelle mit Zeilen und Spalten organisiert, ähnlich wie in einer Tabellenkalkulation. DataFrames zählen zu den am häufigsten verwendeten Datenstrukturen {...}
Was ist eine Datenpipeline? Eine Datenpipeline umfasst die Art und Weise, wie Daten von einem System zu einem anderen fließen. Sie besteht aus einer Reihe von Schritten, die in einer bestimmten Reihenfolge ausgeführt werden. Dabei dient die Ausgabe e{...}
Was ist eine Datenanalyseplattform? Eine Datenanalyseplattform ist ein Ökosystem mit Services und Technologien für die Analyse umfangreicher, komplexer und dynamischer Daten. Sie können damit Daten aus den verschiedenen Quellen Datenquellen eines Un{...}
Die Datenaufnahme ist der erste Schritt im Daten-Engineering-Lebenszyklus. Sie umfasst die Erfassung von Daten aus unterschiedlichen Quellen – etwa Datenbanken, SaaS-Anwendungen, Datei-Quellen, APIs oder IoT-Geräten – und das Überführen die{...}
Angesichts der wachsenden Menge an Daten, Datenquellen und Datentypen benötigen Unternehmen zunehmend Tools und Strategien, die ihnen dabei helfen, diese Daten zu transformieren und daraus geschäftliche Erkenntnisse zu gewinnen. Die Aufbereitung unst{...}
Was ist Datenerfassung?Datenerfassung ist die systematische Sammlung und Messung von Informationen aus verschiedenen Quellen, die später zur Entscheidungsfindung, zur Gewinnung von Erkenntnissen und zum Betreiben datengesteuerter Systeme verwendet wi{...}
Was ist Datenfluss? Der Begriff „Datenfluss“ beschreibt den Weg, den Daten innerhalb der Architektur eines Systems von einem Prozess oder einer Komponente zur nächsten zurücklegen. Er skizziert, wie Daten in einem Computersystem, einer Anwendung oder{...}
Was ist Datenherkunft?Datenherkunft ist der Prozess, bei dem Daten und AI über die Zeit erfasst, nachverfolgt und visualisiert werden – vom Ursprung bis zur Nutzung. Effektive Datenherkunft gibt Datenteams einen durchgängigen Überblick darüber, wie D{...}
Was ist ein Datenkatalog?Ein Datenkatalog ist ein zentralisiertes Bestands- und Verwaltungssystem für die Daten-Assets einer Organisation – eine Art „Schatzkarte“ für Daten. Er bietet ein umfassendes, durchsuchbares Repository für Metadaten, das{...}
Was ist Datenkompetenz?Datenkompetenz bezeichnet die Fähigkeit, Daten zu lesen, mit ihnen zu arbeiten, sie zu analysieren und Ergebnisse klar und wirksam zu kommunizieren. Es geht darum zu verstehen, wie sie entstehen und wie sie genutzt werden könne{...}
Was ist Datenverwaltung? Beginnen wir mit einer Definition des Begriffs Datenverwaltung. Unter Datenverwaltung (oder auch Datenmanagement) versteht man das Organisieren, Verarbeiten, Speichern, Schützen und Analysieren der Daten eines Unternehmens wä{...}
Unternehmen sind heute mehr denn je auf Daten angewiesen. Um den Nutzen Ihrer Daten zu gewährleisten, sollten Sie die bestmögliche Datenplattform verwenden. Dies macht unter Umständen eine Datenmigration erforderlich. Wenn Sie Fragen zur Datenmigrati{...}
Datenmodellierung ist ein zentraler Prozess zur Gestaltung und Organisation von Datenstrukturen, der eine effiziente Speicherung, den Abruf und die Analyse von Informationen unterstützt. Sie ist die architektonische Grundlage für jedes Data-Warehouse{...}
Datenmodernisierung: Transformation von Legacy-Infrastruktur für höhere Effizienz und Skalierbarkeit
Die Notwendigkeit der DatenmodernisierungDatenmodernisierung ist die umfassende Transformation der Dateninfrastruktur, -praktiken und -tools einer Organisation, um Agilität, Innovation und datengestützte Entscheidungsfindung zu ermöglichen. Es handel{...}
Mehr denn je verlassen sich Organisationen auf eine Vielzahl komplexer Datensätze, um fundierte Entscheidungen zu treffen. Damit diese Entscheidungen effektiv und strategisch richtig sind, muss die zugrunde liegende Datenbasis zuverlässig, genau und {...}
Was ist ein Dataset? Ein Dataset ist eine strukturierte Sammlung von Daten, die für die Analyse oder Verarbeitung organisiert und gemeinsam gespeichert werden. Die Daten in einem Dataset sind in der Regel in irgendeiner Weise aufeinander bezogen und {...}
In der hochgradig vernetzten Welt von heute sind Cybersecurity-Bedrohungen und Insider-Risiken ein ständiges Übel. Unternehmen benötigen einen Überblick darüber, was für Daten sie besitzen. Sie müssen die unbefugte Nutzung ihrer Daten verhindern und {...}
Was ist Datentransformation? Als Datentransformation bezeichnet man den Prozess der Umwandlung von Rohdaten, die aus Datenquellen extrahiert wurden, in verwertbare Datasets. Datenpipelines umfassen oft mehrere Datentransformationen, die ungeordnete I{...}
Was ist Datenverarbeitung?Datenverarbeitung bedeutet die durchgängige Umwandlung von Rohdaten in aussagekräftige, umsetzbare Erkenntnisse. Unternehmen setzen auf diese Systeme, um strukturierte und unstrukturierte Daten in Echtzeit (oder in großem Um{...}
Was ist Datenvirtualisierung?Datenvirtualisierung ist eine Methode der Datenintegration, mit der Unternehmen einheitliche Sichten auf Informationen aus mehreren Datenquellen erstellen können, ohne die Daten physisch zu verschieben oder zu kopieren. A{...}
Was ist Deep Learning? Deep Learning ist ein Teilbereich des Machine Learning, das sich mit großen Datenmengen und Algorithmen befasst, die von der Struktur und Funktion des menschlichen Gehirns inspiriert sind. Deshalb werden Deep-Learning-Modelle o{...}
Dense Tensors speichern Werte in einem zusammenhängenden sequentiellen Speicherblock, in dem alle Werte dargestellt werden. Tensors oder mehrdimensionale Arrays werden in einer Vielzahl mehrdimensionaler Datenanalyseanwendungen verwendet. Es gibt ein{...}
Die Unified Data Analytics Platform von Databricks vereint Data Science mit Data Engineering und Business und hilft Unternehmen so, Innovation zu beschleunigen. Mit Databricks als einheitlicher Datenanalyseplattform können Sie Daten schnell und ohne {...}
Einführung in PostgreSQLEine PostgreSQL-Datenbank ist ein relationales Open-Source-Datenbankmanagementsystem, das strukturierte Daten speichert, organisiert und abruft. Diese relationale Datenbank erzwingt Beziehungen zwischen Datentabellen, validier{...}
Was ist ein digitaler Zwilling? Die klassische Definition des digitalen Zwillings lautet: „Ein digitaler Zwilling ist ein virtuelles Modell, das ein physisches Objekt präzise wiedergibt.“ – IBM[KVK4] Ein digitaler Zwilling erfasst mithilfe verschiede{...}
Was ist die DNA-Sequenzierung? Als DNA-Sequenzierung bezeichnet man das Verfahren zur Bestimmung der genauen Reihenfolge der Nukleotide der DNA (Desoxyribonukleinsäure). Eine Sequenzierung der DNA in der Reihenfolge der vier chemischen Bausteine – Ad{...}
Was sind Echtzeitanalysen? Echtzeitanalysen beziehen sich auf die Erfassung und Analyse von Streaming-Daten, sobald diese generiert werden. Die Latenzzeit zwischen der Generierung dieser Daten und ihrer Analyse ist dabei minimal. Echtzeitanalysen wer{...}
Eine Business-Intelligence-(BI)-Plattform ist eine umfassende Technologielösung, die Unternehmen dabei unterstützt, Daten zu erfassen, zu verstehen und zu visualisieren, um fundierte Geschäftsentscheidungen zu treffen. Diese Plattformen bilden das te{...}
In den letzten Jahren ist der Bedarf an Echtzeitdaten exponentiell gestiegen. Unternehmen bauen zunehmend Anwendungen und Plattformen, die Datenströme nutzen, um -Aund maschinelles Lernen zur Förderung des Geschäftswachstums zu liefern. Durch kontinu{...}
Was ist ein einheitliches Data Warehouse? Eine einheitliche Datenbank, auch Enterprise Data Warehouse genannt, speichert alle Information eines Unternehmens und macht sie unternehmensweit zugänglich. Heutzutage verwalten die meisten Unternehmen ihre {...}
Was sind Echtzeitdaten für den Einzelhandel? Einzelhandel in Echtzeit setzt Datenzugriff in Echtzeit voraus. Zugriff, Analyse und Compute erfolgten bisher batchbasiert. Die Abkehr von diesem Ansatz ermöglicht, dass Daten immer verfügbar sind, was Ent{...}
What is an enterprise data warehouse (EDW)?An enterprise data warehouse (EDW) is a centralized, structured repository designed to consolidate and manage organizational data. The core benefit of an EDW is that it provides a governed environment where {...}
Als Anomalieerkennung bezeichnet man ein Verfahren zur Erfassung seltener Vorkommnisse oder Beobachtungen, die verdächtig erscheinen, weil sie sich statistisch von den übrigen Beobachtungen unterscheiden. Ein solches „anormales“ Verhalten deutet in d{...}
Was ist ETL? Da die Menge an Daten, Datenquellen und Datentypen in Unternehmen wächst, wird es immer wichtiger, diese Daten in Analytics-, Data-Science- und Machine-Learning-Initiativen zu nutzen, um geschäftliche Erkenntnisse abzuleiten. Die Notwend{...}
Beim Deep Learning ist ein Convolutional Neural Network (CNN oder auch ConvNet) eine Klasse von „tiefen“ neuronalen Netzen, die typischerweise zur Erkennung von Mustern in Bildern, aber auch für die Analyse räumlicher Daten, für maschinelles Sehen, z{...}
Feature Engineering für Machine Learning Feature Engineering – auch „Daten-Preprocessing“ genannt – bezeichnet die Abläufe bei der Umwandlung von Rohdaten in Features, die zur Entwicklung von Machine-Learning-Modellen verwendet werden können. Hier be{...}
Fine-Tuning verstehen Beim Training von KI- und Machine-Learning-Modellen (ML) für einen konkreten Zweck zeigt sich: Es ist für Data Scientists und Engineers deutlich einfacher und kostengünstiger, bestehende, vortrainierte Foundation-LLMs anzupassen{...}
Was ist Data Sharing? Data sharing bezeichnet die gemeinsame Nutzung von Daten, bei der dieselben Informationen mehreren Datenverbrauchern zur Verfügung gestellt werden. Die stetig wachsende Datenmenge ist heute ein strategischer Vorteil für jedes Un{...}
Generative KI verändert die Art und Weise, wie Menschen erschaffen, arbeiten und kommunizieren. Databricks erklärt, wie generative KI funktioniert und wohin sie als nächstes geht. {...}
Genomik ist ein Bereich innerhalb der Genetik, der sich mit der Sequenzierung und Analyse des Genoms eines Organismus befasst. Seine Hauptaufgabe besteht darin, die gesamte DNA-Sequenz oder die Zusammensetzung der Atome, aus denen die DNA besteht, un{...}
Was ist Overall Equipment Effectiveness? Die Overall Equipment Effectiveness(OEE, auf Deutsch: Gesamtanlageneffektivität) ist ein Maß dafür, wie gut ein Fertigungsbetrieb während der geplanten Betriebszeiten verglichen mit seinem vollen Potenzial aus{...}
HDFS HDFS (Hadoop Distributed File System) ist das primäre Speichersystem, das von Hadoop-Anwendungen verwendet wird. Dieses Open-Source-Framework zeichnet sich durch schnelle Übertragungen von Daten zwischen Knoten aus. Es wird häufig von Unternehme{...}
Was ist ein Hadoop-Cluster? Apache Hadoop ist ein Java-basiertes Open-Source-Softwareframework und eine Engine für parallele Datenverarbeitung. Es ermöglicht, dass Verarbeitungs-Tasks für Big Data Analytics in kleinere Tasks aufgeteilt werden, die mi{...}
Was ist das Hadoop-Ökosystem?Als Apache Hadoop-Ökosystem werden die verschiedenen Komponenten der Apache Hadoop-Softwarebibliothek bezeichnet. Es umfasst sowohl Open-Source-Projekte als auch eine ganze Reihe ergänzender Tools. Einige der bekannteren {...}
Als Hashtabelle [Hash-Map] bezeichnet man in der Informatik eine Datenstruktur, die auf Grundlage eines Schlüssels [einer eindeutigen Zeichenfolge oder Ganzzahl] praktisch direkten Zugriff auf Objekte bietet. Eine Hashtabelle verwendet eine Hashfunkt{...}
Was ist eine Hive-Datumsfunktion? Hive bietet viele integrierte Funktionen, die uns bei der Verarbeitung und Abfrage von Daten unterstützen. Diese Funktionen bieten unter anderem Stringbearbeitung, Datumsbearbeitungen, Typkonvertierungen, bedingte Op{...}
Was ist Hosted Spark? Apache Spark ist ein schnelles und universelles Cluster-Computing-System für Big Data, das auf Geschwindigkeit, Benutzerfreundlichkeit und fortschrittliche Analysen ausgelegt ist und ursprünglich 2009 an der University of Califo{...}
Was ist ein Jupyter-Notebook? Ein Jupyter-Notebook ist eine Open-Source-Webanwendung, mit der Data Scientists Dokumente erstellen und austauschen können, die Livecode, Gleichungen und weitere Multimediaressourcen enthalten. Wofür werden Jupyter-Noteb{...}
Was ist ein Keras-Modell? Keras ist eine High-Level-Bibliothek für Deep Learning, die auf Theano und Tensorflow aufsetzt. Sie ist in Python geschrieben und stellt eine saubere und bequeme Möglichkeit bereit, viele verschiedene Deep-Learning-Modelle z{...}
Was sind KI-Agents?ÜbersichtVerstehen Sie, was KI-Agents von herkömmlichen KI-Systemen unterscheidet und wie sie autonom wahrnehmen, entscheiden und handeln.Erkunden Sie die Entwicklung von AI Agents – von frühen, regelbasierten Programmen der 1{...}
Was ist komplexe Ereignisverarbeitung? Komplexe Ereignisverarbeitung (Complex Event Processing, CEP) – auch bekannt als Ereignis-, Stream- oder Ereignisstromverarbeitung – bezeichnet den Einsatz von Technologie zur Abfrage von Daten, noch b{...}
Kontinuierliche Anwendungen sind End-to-End-Anwendungen, die in Echtzeit auf Daten reagieren. Entwickler möchten eine einzige Programmierschnittstelle verwenden, um die Facetten kontinuierlicher Anwendungen zu unterstützen, die derzeit in separaten S{...}
Was ist ein künstliches neuronales Netz? Ein künstliches neuronales Netz (artificial neuron network, ANN) ist ein Computersystem, das der Funktionsweise der Neuronen im menschlichen Gehirn nachempfunden ist. Wie funktionieren künstliche neuronale Net{...}
Was ist das Lakehouse für den Einzelhandel? Das Lakehouse für den Einzelhandel ist das erste branchenspezifische Lakehouse von Databricks. Es hilft Einzelhändlern durch Lösungsbeschleuniger, Data-Sharing-Funktionen und ein Partner-Ökosystem, schnell {...}
Was ist eine Lambda-Architektur? Lambda-Architekturen sind eine Methode zur Verarbeitung großer Datenmengen (d. h. „Big Data“), die mit einem hybriden Ansatz Zugang zu Batch- und Stream-Verarbeitungsmethoden bietet. Mithilfe einer Lambda-Archite{...}
Was sind Large Language Models (LLMs)?Sprachmodelle sind eine Art von generativer KI (GenAI), die die Verarbeitung natürlicher Sprache (NLP) nutzen, um menschliche Sprache zu verstehen und zu generieren. Große Sprachmodelle (LLMs) sind die leistungss{...}
Was ist Lieferkettenmanagement? Lieferkettenmanagement ist der Prozess der Planung, Umsetzung und Steuerung des Betriebs der Lieferkette mit dem Ziel, Produkte und Dienste effizient und effektiv zu produzieren und an den Endkunden zu liefern. Es umfa{...}
Was ist LLMOps?Large Language Model Operations (LLMOps) ist eine Bezeichnung für Praktiken, Verfahren und Tools, die für das betriebliche Management von Large Language Models (LLMs) in Produktionsumgebungen eingesetzt werden.Die jüngsten Fortschritte{...}
Die Machine Learning Library (MLlib) von Apache Spark ist auf Einfachheit, Skalierbarkeit und bequeme Integration mit anderen Tools ausgelegt. Dank der Skalierbarkeit, der Sprachkompatibilität und der Geschwindigkeit von Spark können sich Data Scient{...}
Was ist ein Machine-Learning-Modell? Ein Machine-Learning-Modell ist ein Programm, das Muster findet oder auf Basis eines zuvor ungesehenen Datasets Entscheidungen trifft. Bei der Verarbeitung natürlicher Sprache beispielsweise können Machine-Learnin{...}
Was ist Managed Spark? Mit einem Managed Spark-Service können Sie die Vorteile von Open-Source-Datentools für Batch-Verarbeitung, Abfragen, Streaming und Machine Learning nutzen. Mithilfe einer solchen Automatisierung können Sie bei Bedarf rasch Clus{...}
Was ist MapReduce? MapReduce ist ein Java-basiertes, verteiltes Ausführungsframework innerhalb des Apache Hadoop-Ökosystems. Es verringert die Komplexität der verteilten Programmierung, indem es zwei Verarbeitungsschritte offenlegt, die Entwickl{...}
Was ist eine materialisierte Ansicht? Eine materialisierte Ansicht ist ein Datenbankobjekt, das die Ergebnisse einer Abfrage als physische Tabelle speichert. Im Gegensatz zu üblichen Datenbankansichten, die virtuell sind und ihre Daten aus den zugrun{...}
Was versteht man unter Medallion-Architektur? Eine Medallion-Architektur ist ein Datendesignmuster, das zur logischen Organisation von Daten in einem Lakehouse verwendet wird, mit dem Ziel, die Struktur und Qualität der Daten inkrementell und p{...}
Die Ausführung von Machine-Learning-Algorithmen umfasst üblicherweise eine Reihe von Aufgaben wie die Phasen für Vorverarbeitung, Feature-Extraktion, Modellanpassung und Validierung. Wenn Sie beispielsweise Textdokumente klassifizieren, müssen der Te{...}
Was ist MLOps? MLOps (Machine Learning Operations) ist eine Kernfunktion des Machine Learning Engineering. Es legt den Schwerpunkt auf die Prozessoptimierung bei der Überführung von Machine-Learning-Modellen in die Produktion sowie auf deren anschlie{...}
Als Modell-Risikomanagement bezeichnet man die Steuerung von Risiken, die sich aus auf falschen oder falsch verwendeten Modellen beruhenden und daher potenziell schädlichen Entscheidungen ergeben können. Ziel des Modell-Risikomanagements ist es, Verf{...}
Was ist Bedarfsplanung? Bedarfsplanung ist der Prozess zur Vorhersage des Verbraucherbedarfs (entspricht dem zukünftigen Umsatz). Konkret geht es darum, anhand quantitativer und qualitativer Daten zu prognostizieren, welches Produktsortiment die Kund{...}
Was ist ein neuronales Netz? Ein neuronales Netz ist ein Rechenmodell, dessen Schichtenstruktur der vernetzten Struktur von Neuronen im Gehirn ähnelt. Es besteht aus miteinander verbundenen Verarbeitungselementen – den so genannten Neuronen {...}
Was ist Open Banking? Open Banking ist eine sichere Möglichkeit, mit Zustimmung seitens der Kunden den Zugriff auf die Finanzdaten von Verbrauchern zu ermöglichen.² Angetrieben von Regulierungs-, Technologie- und Wettbewerbsdynamik, fordert Open Bank{...}
Was ist Orchestrierung? Unter dem Begriff „Orchestrierung“ versteht man die Koordination und Verwaltung mehrerer Computersysteme, Anwendungen und/oder Dienste. Dabei werden mehrere Aufgaben aneinandergereiht, um einen übergeordneten Workflow oder Pro{...}
Wenn es um Data Science geht, ist es wohl nicht übertrieben zu sagen, dass Sie die Arbeitsweise Ihres Unternehmens verändern können, wenn Sie das Potenzial Ihrer Daten mit pandas DataFrame voll ausschöpfen. Dazu benötigen Sie allerdings die richtige{...}
Was ist Parquet? Apache Parquet ist ein spaltenorientiertes Open-Source-Datendateiformat, das für eine effiziente Datenspeicherung und -abfrage entwickelt wurde. Es bietet effiziente Datenkomprimierungs- und Codierungsschemata mit verbesserter Leistu{...}
Was sind personalisierte Finanzdienstleistungen? Finanzprodukte und -dienstleistungen werden zunehmend zur Massenware und die Verbraucher werden anspruchsvoller, da Medien und Einzelhandel verstärkt auf personalisierte Erfahrungen setzen. Um wettbewe{...}
Introduction: Understanding DataFrame Library OptionsDataFrames are two-dimensional data structures, usually tables, similar to spreadsheets, that allow you to store and manipulate tabular data in rows of observations and columns of variables, as wel{...}
Was ist Predictive Analytics? Predictive Analytics bezeichnet eine Form der fortgeschrittenen Analytik, die sowohl neue als auch ältere Daten nutzt, um Muster zu erkennen und künftige Ergebnisse und Trends vorherzusagen. Wie funktioniert Predictive A{...}
Prompt Engineering ist ein aufstrebendes Feld im Bereich der Entwicklung künstlicher Intelligenz (KI), sich auf einen entscheidenden Aspekt der GenAI-Entwicklung (Entwicklung generativer KI) konzentriert: die Gestaltung effektiver Eingaben für KI-Mod{...}
PyCharm ist eine integrierte Entwicklungsumgebung (IDE) zur Computerprogrammierung, die für die Programmiersprache Python entwickelt wurde. Bei der Verwendung auf Databricks erstellt PyCharm standardmäßig eine virtuelle Python-Umgebung. Sie können j{...}
Was ist PySpark? Apache Spark ist in der Programmiersprache Scala geschrieben. PySpark soll vor allem die gemeinsame Nutzung von Apache Spark und Python unterstützen. Im Grunde genommen handelt es sich also um eine Python-API für Spark. Darüber hinau{...}
Bei RDD war von Anfang an die wichtigste benutzerorientierte API in Spark. Im Kern stellt ein RDD eine unveränderliche, verteilte Sammlung von Elementen Ihrer Daten dar, die auf die Knoten in Ihrem Cluster verteilt sind. Sie können parallel mit eine{...}
ÜbersichtErfahren Sie, wie die erweiterte Generierung durch Abruf (RAG) funktioniert, indem sie große Sprachmodelle (LLMs) mit Echtzeit-externen Daten kombiniert, um genauere und relevantere Outputs zu erzeugen.Sehen Sie, wie RAG spezifische Probleme{...}
Was ist ein Schneeflockenschema? Ein Schneeflockenschema ist ein mehrdimensionales Datenmodell, das eine Erweiterung eines Sternschemas darstellt, bei dem die Dimensionstabellen in Unterdimensionen aufgeteilt sind. Schneeflockenschemata werden {...}
Verständnis der semantischen EbeneEine semantische Ebene ist eine geschäftsfreundliche Schnittstelle, die die Lücke zwischen komplexen Datenmodellen und Geschäftsanwendern schließt. Als Abstraktionsebene übersetzt sie technische Datenstrukturen in ve{...}
Serverless Computing ist die neueste Entwicklungsstufe der Compute-Infrastruktur. Früher benötigten Organisationen physische Server, um Webanwendungen auszuführen. Mit dem Aufkommen des Cloud Computings konnten sie virtuelle Server erstellen – m{...}
Wenn Sie mit Spark arbeiten, werden Ihnen folgende drei APIs begegnen: DataFrames, Datasets und RDDsrt Was sind Resilient Distributed Datasets? Bei RDD bzw. Resilient Distributed Datasets handelt es sich um eine Sammlung von Datensätzen mit verteilte{...}
Was ist Spark Elasticsearch? Spark Elasticsearch ist eine verteilte NoSQL-Datenbank zur Speicherung, Abfrage und Verwaltung dokumentenorientierter und halbstrukturierter Daten. Es handelt sich um eine als Open Source auf GitHub erhältliche RESTful-Su{...}
Data Scientists, Data Analysts und ganz allgemein BI-Nutzer greifen bei Datenuntersuchungen häufig auf interaktive SQL-Abfragen zurück. Spark SQL ist ein Spark-Modul zur Verarbeitung strukturierter Daten. Es stellt eine Programmierabstraktion namens {...}
Apache Spark Streaming ist die Vorgängergeneration der Streaming-Engine von Apache Spark. Es gibt keine Updates mehr für Spark Streaming und es ist ein Auslaufprojekt. Es gibt eine neuere und einfacher zu verwendende Streaming-Engine in Apache Spark,{...}
Spark-Anwendungen umfassen zwei Arten von Prozessen: einen Driver-Prozess und eine Reihe von Executor-Prozessen. Der Driver-Prozess führt Ihre main()-Funktion aus. Er befindet sich auf einem Knoten im Cluster und ist für dreierlei verantwortlich: die{...}
Was ist Spark-Leistungsoptimierung? Die Spark-Leistungsoptimierung von Spark bezeichnet den Vorgang, bei dem Einstellungen angepasst werden, um die Verwendung von Speicher, Prozessorkernen und Instanzen im System zu optimieren. Dieser Prozess garanti{...}
Was ist Sparklyr? Sparklyr ist ein Open-Source-Paket, das eine Schnittstelle zwischen R und Apache Spark bereitstellt. Dank der Fähigkeit von Spark, mit verteilten Daten mit geringer Latenz zu interagieren, können Sie jetzt die Funktionen von Spark i{...}
SparkR ist ein Tool zum Ausführen von R in Spark. Es folgt den gleichen Prinzipien wie alle anderen Sprachbindungen von Spark. Um SparkR zu verwenden, importieren wir es einfach in unsere Umgebung und führen unseren Code aus. Es ist der Python-API se{...}
Python bietet eine integrierte Bibliothek namens Numpy zur Bearbeitung mehrdimensionaler Arrays. Die Organisation und Nutzung dieser Bibliothek ist eine Hauptvoraussetzung für die Entwicklung der pytensor-Bibliothek. Sptensor ist eine Klasse, die den{...}
Was ist ein Sternschema? Ein Sternschema ist ein mehrdimensionales Datenmodell, mit dem Daten in einer Datenbank so organisiert werden, dass sie leicht zu verstehen und zu analysieren sind. Sternschemata können auf Data Warehouses, Datenbanken, Data {...}
Wie funktionieren Streaming-Analysen? Die Streaming-Analyse – auch Event Stream Processing genannt – bezeichnet die Analyse riesiger Pools aktueller, in Übertragung befindlicher Daten durch fortlaufende Abfragen: die sogenannten Event Streams. Diese{...}
Structured Streaming ist eine High-Level-API für die Verarbeitung von Streams, die mit Spark 2.2 produktionsreif wurde. Mit Structured Streaming stehen Ihnen die Operationen, die Sie im Batch-Modus mithilfe der strukturierten Spark-APIs durchfüh{...}
Im November 2015 veröffentlichte Google sein Open-Source-Framework für maschinelles Lernen unter dem Namen TensorFlow. Es unterstützt Deep Learning, neuronale Netzwerke und allgemeine numerische Berechnungen auf CPUs, GPUs und GPU-Clustern. Zu den gr{...}
Was ist die Tensorflow-Estimator-API? Estimators bilden ein vollständiges Modell ab, wirken dabei aber nur auf die wenigsten Benutzer intuitiv. Die Estimator-API stellt Methoden zum Trainieren des Modells, zum Beurteilen der Modellgenauigkeit und zum{...}
Was ist das Tungsten-Projekt? Tungsten ist der Codename für ein Rahmenprojekt, mit dem Änderungen an der Ausführungs-Engine von Apache Spark vorgenommen werden sollen. Der Schwerpunkt liegt dabei auf einer wesentlich effizienteren Nutzung von Speiche{...}
Auf der diesjährigen F8 hat Facebook Unified Artificial Intelligence (UAI) angekündigt. Hiermit werden zwei spezielle Deep-Learning-Frameworks zusammengeführt, die Facebook entwickelt und ausgelagert hat: PyTorch widmete sich schwerpunktmäßig der For{...}
Unified Data Analytics ist eine neue Kategorie von Lösungen, die die Datenverarbeitung mit KI-Technologien zusammenführen. Dadurch wird KI für Unternehmen viel leichter nutzbar, d. h., sie können ihre KI-Initiativen deutlich schneller umsetzen. {...}
Was ist eine Vektordatenbank? Eine Vektordatenbank ist eine spezialisierte Datenbank, die darauf ausgelegt ist, Daten in Form von hochdimensionalen Vektoren zu speichern und zu verwalten. Der Begriff „Vektor“ stammt aus der Mathematik und beschreibt {...}
Was sind KI-Modelle? KI-Modelle sind Computerprogramme, die Daten nutzen, um Muster zu erkennen sowie Vorhersagen und Entscheidungen zu treffen. KI-Modelle verwenden Algorithmen – schrittweisen Regeln, die auf Rechenoperationen, Wiederholungen u{...}
Was ist vorausschauende Wartung? Kurz gesagt geht es bei der vorausschauenden Wartung darum, herauszufinden, wann ein Asset gewartet werden sollte und welche spezifischen Wartungsaktivitäten durchgeführt werden müssen. Dabei wird der tatsächliche Zus{...}
Autonome KI-Systeme und ihre Anwendungen in der Praxis verstehenEinführung in die Agent-basierte KIAgentische KI (Agent-KI, engl. Agentic AI) bezieht sich auf intelligente Plattformen, die autonom planen, entscheiden und handeln können, um Ziele mit {...}
Erweiterte Analytik ist die Weiterentwicklung von Business Intelligence (BI): Sie integriert künstliche Intelligenz (KI) und Machine Learning (ML) direkt in den Datenanalyse-Workflow. Statt menschliche Analysten zu ersetzen, erweitert sie ihre Fähigk{...}
Computer Vision ist ein Teilbereich der Informatik, der sich damit befasst, Maschinen zu befähigen, visuelle Informationen auf eine Weise zu analysieren und zu verstehen, die der des menschlichen Sehvermögens möglichst nahekommt. Im Kern geht es bei {...}
Einführung: Das Model Context Protocol verstehenDas Model Context Protocol (MCP) ist ein offener Standard, der es KI-Anwendungen ermöglicht, sich nahtlos mit externen Datenquellen, Tools und Systemen zu verbinden. Stellen Sie sich das Model Context P{...}
Data Intelligence ist der Prozess, bei dem KI-Systeme (Künstliche Intelligenz) eingesetzt werden, um aus den Daten eines Unternehmens zu lernen, sie zu verstehen und daraus Schlüsse zu ziehen. Dies ermöglicht die Erstellung maßgeschneiderter KI-Anwen{...}
Datenbeobachtbarkeit (Data Observability) bezeichnet die Praxis und die damit verbundenen Prozesse zur kontinuierlichen Monitoring des Zustands, der Qualität, der Zuverlässigkeit und der Performance von Datensystemen – von Erfassungspipelines über Sp{...}
Einführung in das Data MiningData Mining ist der Prozess, bei dem aussagekräftige Muster, Beziehungen und Erkenntnisse aus großen Datenmengen gewonnen werden. Dabei werden Techniken aus den Bereichen Statistik, machine learning und Datenverwaltung ge{...}
Datenklassifizierung ist der Prozess, bei dem Daten basierend auf ihrer Sensibilität, ihrem Wert und dem Risiko für das Unternehmen in klar definierte Kategorien eingeteilt werden. Diese Kategorien – oft als Stufen wie öffentlich, intern, vertraulich{...}
Datenvisualisierung ist der Prozess, bei dem Rohdaten in visuelle Formate überführt werden. So lassen sich Muster, Trends und Zusammenhänge leichter erkennen und interpretieren. Wenn Rohdaten in Diagramme, Plots oder Karten übersetzt werden, werden a{...}
Datenarchitektur wird definiert als ein Framework aus Konzepten, Standards, Richtlinien, Modellen und Regeln, das zur Verwaltung von Daten innerhalb einer Organisation dient. Datenarchitekturen sind Blaupausen für die Organisation von Datenprozessen {...}
Ein gerichteter azyklischer Graph (auch bekannt als DAG, engl. directed acyclic graph) ist ein grundlegendes Konzept im Data Engineering, in der Analytics und in der KI. Er bietet eine strukturierte Möglichkeit, Tasks, Abhängigkeiten und Informations{...}
Was ist eine relationale Datenbank?Eine relationale Datenbank ist ein Datenbanktyp, der Daten in Tabellen speichert und den Zugriff darauf ermöglicht. Diese Tabellen können durch gemeinsame Spalten und Zeilen, die als Relationen bezeichnet werden, mi{...}
ELT, kurz für Extrahieren, Laden, Transformieren, ist ein moderner Ansatz zur Datenintegration, der für cloudnative Analytics-Plattformen entwickelt wurde. In einer ELT-Pipeline werden die Daten zunächst aus den Quellsystemen extrahiert, dann direkt {...}
Apache Hadoop ist eine Java-basierte Open-Source-Softwareplattform, die Datenverarbeitung und -speicherung für Big-Data-Anwendungen verwaltet. Die Plattform verteilt Hadoop-Big-Data- und -Analyseaufträge auf die Knoten eines Rechenclusters und zerleg{...}
OLAP ist eine Methode, um Daten schnell und interaktiv über mehrere Dimensionen hinweg zu analysieren. Online-analytische Verarbeitung strukturiert Information so, dass Benutzer Trends untersuchen und Performance-Fragen nachgehen können, ohne für jed{...}
Autor: Kevin Stumpf, Mitgründer und CTOAls wir 2015 mit der Einführung von Ubers Machine-Learning-Plattform Michelangelo begannen, fiel uns ein interessantes Muster auf: 80 % der auf der Plattform gestarteten ML-Modelle unterstützten Anwendungsf{...}
Up until two years ago, only giant technology companies had the resources and expertise to build products that fully depended on machine learning systems. Think Google powering ad auctions, TikTok recommending content, and Uber dynamically adjusting {...}
Updated: May 15, 2025About the authors:Mike Del Balso, CEO & Co-Founder of TectonWillem Pienaar, Creator of FeastData teams are starting to realize that operational machine learning requires solving data problems that extend far beyond the creati{...}
What Is AI Governance?AI governance is the set of frameworks, policies, and processes organizations use to ensure artificial intelligence systems are developed, deployed, and operated responsibly throughout their lifecycle. The term refers to any ove{...}
What is Change Data Capture?Change Data Capture (CDC) is a data integration technique that identifies and records row-level changes made to a dataset, such as inserts, updates, and deletes. Instead of repeatedly extracting entire tables, CDC captures{...}
Data engineering is the practice of designing, building and maintaining systems that collect, store, transform and deliver data for analysis, reporting, machine learning and decision-making. It’s about making sure the data actually shows up, on time,{...}
Understand foundational distinctions and where each fits within AI.Understanding the AI, ML and DL HierarchyIn the broader world of artificial intelligence (AI), the concepts of machine learning and deep learning are often confused. AI is the broad f{...}
OLTP, or Online Transaction Processing, is a type of data processing that can efficiently handle large numbers of short, fast transactions with low latency. At its core, OLTP is designed to store and retrieve data quickly. It focuses on day-to-day es{...}
Business-Intelligence-Tools (BI-Tools) sind Softwareanwendungen, die darauf ausgelegt sind, Geschäftsdaten zu erfassen, verarbeiten, analysieren und in aussagekräftiger Form darzustellen. Im Kern verwandeln diese Werkzeuge Rohdaten in handlungsreleva{...}