Glossary

DNA 서열이란 무엇입니까? DNA 서열은 DNA(deoxyribonucleic acid, 디옥시리보 핵산)의 뉴클레오타이드(nucleotides)의 정확한 순서를 판별하는 과정입니다.  DNA 서열은 네 가지 화학적 기본 요소인 아데닌, 구아닌, 사이토신, 타이민 등 DNA 분자 내에서 발생하는 화학 물질의 순서를 말합니다. 이것을 '염기'라고도 합니다. DNA 서열을 정하는 첫 번째 방식은 1970년대 중반 Fred Sange{...}
Hive 날짜 함수란 무엇입니까? Hive는 수많은 기본 내장 함수를 제공하여 데이터 처리와 쿼리에 도움이 됩니다. 이런 함수가 제공하는 기능 중에는 문자열 조작, 날짜 조작, 타입 변환, 조건 연산자, 수학적 함수 등이 있으며 이외에도 여러 가지가 있습니다. HIVE 기본 내장 함수의 유형 날짜 함수 주로 날짜에 일수를 더하는 등 이와 비슷한 연산의 날짜 데이터 타입을 대상으로 한 연산을 수행하는 데 쓰입니다. 수학{...}
Lambda 아키텍처란 무엇입니까? Lambda 아키텍처는 엄청난 대량의 데이터(즉 “빅데이터”)를 처리하는 방식의 일종으로, 하이브리드 방식으로 일괄 처리나 스트림 처리 방식을 이용할 수 있게 해줍니다. Lambda 아키텍처는 임의 함수 연산 문제를 해결하는 데 쓰입니다. Lambda 아키텍처 자체는 3개의 계층으로 이루어져 있습니다. 배치 계층 새로운 데이터는 데이터 시스템에 일종의 피드 형태로 끊임없이 유입됩니다. 이것을 {...}
Medallion 아키텍처란 무엇입니까? 메달리온 아키텍처는 레이크하우스에 논리적으로 데이터를 정리하는 데 사용하는 데이터 설계 패턴입니다. 이 아키텍처의 목표는 데이터가 아키텍처의 각 레이어를 통과하는 동안(브론즈 ⇒ 실버 ⇒ 골드 레이어 테이블) 데이터의 구조와 품질을 증분적, 점진적으로 개선하는 것입니다. 메달리온 아키텍처는 "멀티 홉" 아키텍처라고 부르기도 합니다.   레이크하우스 아키텍처의 장점{...}
Unified Artificial Intelligence, 즉 UAI는 Facebook에서 올해 F8 중에 발표한 개념입니다. 이 개념은 Facebook이 제작하고 아웃소싱한 2가지 딥러닝 프레임워크를 합친 것입니다. 하나는 대규모 컴퓨팅 리소스에 액세스를 보유한 리서치 중점적 PyTorch이고, 다른 하나는 Android와 Raspberry Pi 디바이스에서의 모델 배포에 주력하는 Caffe입니다. Facebook의 Unified AI는 범위{...}
데이터 웨어하우스란 무엇입니까? 데이터 웨어하우스는 여러 소스의 현재 및 과거 데이터를 비즈니스에서 쉽게 인사이트와 보고서를 얻을 수 있도록 저장하는 데이터 관리 시스템입니다. 일반적으로 데이터 웨어하우스는 비즈니스 인텔리전스(BI), 보고 및 데이터 분석에 사용합니다. 데이터 웨어하우스를 사용하면 운영 시스템(예: POS 시스템, 재고 관리 시스템, 마케팅/영업 데이터베이스)에서 업로드된 비즈니스 데이터를 빠르고 쉽게 분석할 수 있{...}
What is a Digital Twin? The classical definition of of digital twin is; ””A digital twin is a virtual model designed to accurately reflect a physical object.”” – IBM[KVK4] For a discrete or continuous manufacturing process, a digital twin gathers {...}
딥러닝이란 무엇입니까? 딥러닝은 머신 러닝의 하위 집합으로, 특히 사람의 뇌 구조와 기능에서 영감을 얻은, 알고리즘을 포함한 대량의 데이터를 다룹니다. 그래서 딥러닝 모델을 종종 심층 신경망이라고 부르는 것입니다. 이는 일반적인 작업별 알고리즘이 아니라 학습 데이터 표현을 기반으로 한 넓은 의미의 머신 러닝 방식에 속합니다. 딥러닝의 작용 원리는 무엇입니까? 딥러닝에서는 컴퓨터 모델이 이미지, 텍스트나 소리에서 직접 분류 작업을{...}
예측 분석이란 무엇입니까? 예측 분석(Predictive analytics)은 지능형 분석의 한 가지 형태입니다. 새로운 데이터와 과거 데이터를 둘 다 사용하여 패턴을 파악하고 향후 결과와 추세를 예측합니다. 예측 분석은 어떻게 동작합니까? 예측 분석은 통계 분석 기법, 분석 쿼리, 데이터 마이닝, 예측 모델링과 자동 머신 러닝 알고리즘과 같은 다양한 기법을 활용해 Dataset가 예측형 모델을 만들게 한 다음 특정 이벤트의 발{...}
What is predictive maintenance? Predictive Maintenance, in a nutshell, is all about figuring out when an asset should be maintained, and what specific maintenance activities need to be performed, based on an asset’s actual condition or state, rath{...}
인공 신경망이란 무엇입니까? 인공 신경망(Artificial Neural Network, ANN)은 사람의 뇌 속 뉴런의 작용을 본떠 패턴을 구성한 컴퓨팅 시스템의 일종입니다. 인공 신경망은 어떻게 작동합니까? 인공 신경망(ANN)은 가중치를 적용한 방향성 그래프라고 보면 가장 적당합니다. 이를 보통 여러 계층으로 구조화합니다. 이러한 계층에는 사람의 뇌 속에 있는 생물학적 뉴런을 모방한 수많은 노드가 있고, 이들이 서로 연결되{...}
지속형 애플리케이션(Continuous Application)은 실시간으로 데이터에 반응하는 종단간(E2E) 애플리케이션입니다. 특히 개발자의 경우 별도의 시스템에서 현재 처리 중인 지속형 애플리케이션의 여러 측면(예를 들어 쿼리 제공, 배치 작업과의 상호작용 등)을 지원하기 위해 단 한 가지 프로그래밍 인터페이스를 사용하고자 합니다. 아래에 다음과 같은 사용 사례를 처리할 수 있는 지속형 애플리케이션의 예를 소개하였습니다. 실시간으{...}
하둡 클러스터란 무엇입니까? Apache Hadoop은 오픈 소스, Java 기반 소프트웨어 프레임워크이자 병렬식 데이터 처리 엔진입니다. 하둡을 이용하면 빅데이터 분석 처리 작업을 작은 크기의 작업으로 분해하여 알고리즘(예를 들어 MapReduce 알고리즘 같은)을 사용하여 병렬식으로 수행할 수 있고, 그런 다음 하둡 클러스터에 배포하면 됩니다. 하둡 클러스터란 네트워크로 서로 연결된 일련의 컴퓨터('노드'라고{...}
컴퓨팅에서 해시 테이블 [해시 맵]은 키 [고유한 문자열이나 정수]를 기반으로 개체에 사실상 직접적인 액세스를 제공하는 데이터 구조를 말합니다. 해시 테이블은 해시 함수를 사용해 인덱스를 버킷이나 슬롯 어레이로 연산하는데, 여기에서 원하는 값을 찾을 수 있습니다. 여기에 사용되는 키의 주된 특징을 소개합니다. 사용되는 키는 SSN, 전화번호, 계좌 번호 등 무엇이든 가능 반드시 고유한 키가 있어야 함 각각의 키가 값과 연결됨({...}
트랜잭션이란 무엇입니까? 데이터베이스와 데이터 스토리지 시스템이라는 맥락에서 트랜잭션이란 한 단위의 작업으로 취급되는 모든 작업을 말합니다. 트랜잭션은 완전히 완료되기도 하고 전혀 완료되지 않을 수도 있으며, 스토리지 시스템을 한결같은 상태로 둡니다. 트랜잭션의 전형적인 예는 은행 계좌에서 현금을 인출할 때 일어나는 일입니다. 현금이 계좌에서 인출되거나, 인출되지 않거나 둘 중의 하나일 뿐 그 중간 어딘가의 상태란 없습니다.&nb{...}
용어집으로 돌아가기경사하강법(Gradient descent)은 머신 러닝과 딥러닝 알고리즘에서 가장 보편적으로 쓰이는 최적화 방식입니다. 머신 러닝 모델을 트레이닝하는 데 쓰입니다. 경사하강법의 유형 최신 머신 러닝 및 딥러닝 알고리즘에 쓰이는 경사하강법은 크게 세 가지 유형으로 나눌 수 있습니다. 배치 경사하강법 배치 경사하강법(Batch Gradient Descent)이 그중 가장 간단한 유형입니다.{...}
Apache Hive란 무엇입니까? Apache Hive는 광범위한 Hadoop 에코시스템에 속하는 Apache Hadoop Distributed File System(HDFS)에서 추출한 대용량 데이터세트를 읽고, 쓰고, 관리하도록 설계된 오픈 소스 데이터 웨어하우스 소프트웨어입니다. Apache Hive는 광범위한 Apache Hive 문서 및 지속적 업데이트를 통해 쉽게 액세스할 수 있는 방식으로 계속해서 데이터{...}
Apache Kudu란 무엇입니까? Apache Kudu는 Apache Hadoop용으로 개발한 무료, 오픈 소스 컬럼 기반 스토리지 시스템입니다. 각각의 행에 낮은 레이턴시(low-latency) 랜덤 액세스, 밀리초 급의 액세스를 지원하며 우수한 분석 액세스 패턴을 제공하는 구조적 데이터용 엔진이며, 널리 보급된 Hadoop Distributed File System [HDFS] 및 HBase NoSQL Databas{...}
Apache Kylin이란 무엇입니까? Apache Kylin은 인터랙티브 분석 빅 데이터에 적합한 분산형 오픈 소스 온라인 분석 처리(Online Analytics Processing, OLAP) 엔진입니다. Apache Kylin은 하둡/Spark에서 SQL 인터페이스와 다차원 분석(OLAP)을 제공하기 위해 고안되었습니다. 또한 ODBC 드라이버, JDBC 드라이버 및 REST API를 사용해 BI 툴과 손쉽게 통합할 수도 {...}
Apache Spark란 ? Apache Spark는 빅데이터 워크로드에 쓰이는 오픈 소스 분석 엔진입니다. 배치는 물론 실시간 분석과 데이터 처리 워크로드도 처리할 수 있습니다. Apache Spark는 2009년 캘리포니아 대학교 버클리 캠퍼스에서 연구 프로젝트로 시작되었습니다. 연구진은 하둡 시스템에서 처리 작업의 속도를 높일 방법을 강구하고 있었습니다. 이 엔진은 하둡 MapReduce {...}
Apache Spark as a Service란 무엇입니까? Apache Spark는 고속 실시간 대규모 데이터 처리를 위한 오픈 소스 클러스터 컴퓨팅 프레임워크입니다.Spark는 2009년 UC 버클리 AMPLab에서 탄생한 이래 큰 성장을 이루었습니다. 지금은 빅데이터 부문에서 가장 큰 오픈 소스 커뮤니티로 평가되며 50여 개 조직과 단체에서 200여 명이 기여하고 있습니다. Databricks는 자사 Apache Spark 최적화 버{...}
Spark SQL의 핵심은 Catalyst Optimizer입니다. 이것은 지능형 프로그래밍 언어 기능(예: Scala의 패턴 매칭과 quasi quote 등)을 참신한 방식으로 활용해 확장할 수 있는 쿼리 최적화 프로그램을 구축합니다. Catalyst는 Scala로 쓴 기능성 프로그래밍 구조를 기반으로 하며 다음과 같은 두 가지 용도를 염두에 두고 고안하였습니다. Spark SQL에 새로운 최적화 기법과 특징을 손쉽게 추가 최적{...}
What is a data mart? A data mart is a curated database including a set of tables that are designed to serve the specific needs of a single data team, community, or line of business, like the marketing or engineering department. It is normally smal{...}
What is a data vault? A data vault is a data modeling design pattern used to build a data warehouse for enterprise-scale analytics. The data vault has three types of entities: hubs, links, and satellites. Hubs represent core business concepts, {...}
Databricks Runtime은 Databricks에서 관리하는 머신 클러스터에서 실행되는 소프트웨어 아티팩트 세트입니다. 여기에는 Spark도 포함하지만 이외에도 여러 구성요소와 업데이트를 추가하여 빅데이터 분석의 사용성, 성능과 보안을 대폭 개선해줍니다. 주된 차별점은 다음과 같습니다. DBIO로 성능 개선: Databricks I/O 모듈, 즉 DBIO는 수직으로 통합된 스택을 활용해 클라우드 내 Spark의 성능을{...}
DataFrame이란 무엇입니까? DataFrame이란 데이터를 행과 열로 구성된 2차원 표(스프레드시트와 비슷)로 정리하는 데이터 구조입니다. DataFrame은 최신 데이터 분석에서 가장 보편적으로 쓰이는 데이터 구조 중 하나입니다. 유연하고 직관적인 방식으로 데이터를 저장하고 작업이 가능하기 때문입니다. 각 DataFrame에는 스키마라고 하는 블루프린트가 있어서, 각 열의 이름과 데이터 유형을 정의합니다. Spark {...}
Dataset는 Spark의 Java 및 Scala용 구조적 API의 type-safe 버전입니다. 이 API는 Python과 R에서는 이용할 수 없는데, 이 둘은 동적 타이핑(dynamically typed) 언어이기 때문입니다. 하지만 Scala와 Java에서 대형 애플리케이션을 쓰는 데에는 아주 강력한 툴입니다. DataFrame이 유형 Row 개체로 구성된 분산형 컬렉션이라고 언급한 적이 있습니다. 여기에 다양한 유형의 테이블 형식 데이{...}
Feature engineering for machine learning Feature engineering, also called data preprocessing, is the process of converting raw data into features that can be used to develop machine learning models. This topic describes the principal concepts of f{...}
유전체학(Genomics)은 유기체의 유전체(게놈) 서열, 분석과 관련된 유전학의 한 분야입니다. 이 학문의 주된 목적은 DNA의 전체 서열, DNA를 구성하는 원자의 구성이나 여러 DNA 원자 사이의 화학적 결합 형태를 알아내는 데 있습니다. 유전체학은 유전체를 하나의 완전한 구조로 보는 학문입니다. 따라서 어떤 유기체의 전체적인 유전 형질을 연구하는 학문이라고 정의할 수 있겠습니다. DNA를 사상 최초로 분리한 것은 1869년의 일이지만, {...}
HDFS HDFS (Hadoop Distributed File System) is the primary storage system used by Hadoop applications. This open source framework works by rapidly transferring data between nodes. It's often used by companies who need to handle and store big data. {...}
Hosted Spark란 무엇입니까? Apache Spark는 속도, 사용 편이성과 고급 분석을 중심으로 구축된 빅데이터용 고속, 일반 클러스터 컴퓨팅 시스템입니다. 2009년에 UC 버클리에서 처음 구축되었습니다. Scala, Java, Python과 R에서 고수준 API를 제공하며 데이터 분석에 적합한 범용 연산 그래프를 지원하는 최적화 엔진도 있습니다. 이외에도 SQL과 DataFrame용 Spark SQL, 머신 러닝용 MLlib,{...}
Jupyter Notebook이란 무엇입니까? Jupyter Notebook은 오픈 소스 웹 애플리케이션으로, 데이터 사이언티스트가 라이브 코드, 식, 기타 멀티미디어 리소스를 포함하여 문서를 생성 및 공유하는 데 사용할 수 있습니다. Jupyter Notebook은 어떤 용도로 사용하나요? Jupyter Notebook은 탐색적 데이터 분석(EDA), 데이터 정리 및 변환, 데이터 시각화, 통계적 모델링, 머신 러닝, {...}
Keras 모델이란 무엇입니까? Keras는 Theano와 Tensorflow 기반의 딥러닝용 고차원 라이브러리입니다. Python 언어로 쓰여 광범위한 딥러닝 모델을 깔끔하고 편리하게 제작할 수 있습니다. Keras는 신경망 개발, 테스트에 관한 한 가장 애용되는 고수준 신경망 API 중 하나로 자리 잡았습니다. Keras 고수준 API 덕분에 요즘은 신경망 계층을 생성하고 복잡한 아키텍처를 설정하는 것쯤은 간{...}
Managed Spark란 무엇입니까? Managed Spark 서비스를 이용하면 일괄 처리, 쿼리, 스트리밍과 머신 러닝 등을 위한 오픈 소스 데이터 툴을 유리하게 활용할 수 있습니다. 이러한 자동화 기능을 이용하면 필요에 따라 신속하게 클러스터를 만들어 간편하게 관리하고, 작업이 완료되면 끌 수 있습니다. 또한 워크로드, 성능 요구사항에 따라서나 기존 리소스를 바탕으로 클러스터 크기를 조정할 수도 있습니다. 뿐만 아니라 완전한 Mana{...}
What is MapReduce? MapReduce is a Java-based, distributed execution framework within the Apache Hadoop Ecosystem.  It takes away the complexity of distributed programming by exposing two processing steps that developers implement: 1) Map and {...}
일반적으로 머신 러닝 알고리즘을 실행할 때는 전처리, 기능 추출, 적합한 모델 찾기(model fitting) 과 검증 단계로 구성된 시퀀스를 거쳐야 합니다. 예를 들어 텍스트 문서를 분류하는 경우, 텍스트 조각화와 정리, 특징 추출, 교차 검증을 통한 분류 모델 교육 등의 작업을 거치게 됩니다. 각 단계에 사용할 수 있는 라이브러리는 많지만, 단편적인 정보를 연결해 결론을 내기란 보기보다 어려울 수 있습니다. 특히 대규모 Dataset인 경우{...}
MLOps란 무엇입니까? MLOps는 머신 러닝 작업(Machine Learning Operations)을 뜻합니다. MLOps는 머신 러닝 모델을 프로덕션으로 전환하는 프로세스를 간소화하고, 뒤이어 이를 유지관리하고 모니터링하는 데 주안점을 둔 머신 러닝 엔지니어링의 핵심 기능입니다. MLOps는 협업 기능이며, 주로 데이터 사이언티스트, DevOps 엔지니어, IT로 구성됩니다.   MLOps의 용도는 무엇입{...}
What is Open Banking? Open banking is a secure way to provide access to consumers' financial data, all contingent on customer consent.² Driven by regulatory, technology, and competitive dynamics, Open Banking calls for the democratization of custo{...}
What is Orchestration? Orchestration is the coordination and management of multiple computer systems, applications and/or services, stringing together multiple tasks in order to execute a larger workflow or process. These processes can consist of {...}
When it comes to data science, it's no exaggeration to say that you can transform the way your business works by using it to its full potential with pandas DataFrame. To do that, you'll need the right data structures. These will help you be as ef{...}
Parquet란 무엇입니까? Apache Parquet는 효율적인 데이터 스토리지와 검색을 지원하도록 설계되었으며, 컬럼 중심의 오픈 소스 데이터 파일 형식입니다. 복잡한 데이터를 일괄적으로 처리하는 기능을 더욱 향상하여 효율적인 데이터 압축 및 인코딩 방식을 제공합니다. Apache Parquet는 배치 및 인터랙티브 워크로드에 공통적인 상호 교환 형식을 제공하도록 설계되었습니다. 하둡에서 제공하는 다른 컬럼형 스토리지 파일 형{...}
What is Personalized Finance? Financial products and services are becoming increasingly commoditized and consumers are becoming more discerning as the media and retail industries have increased their penchant for personalized experiences. To remai{...}
PyCharm은 컴퓨터 프로그래밍에 쓰이는 통합형 개발 환경(Integrated Development Environment, IDE)으로 Python 프로그래밍 언어에 맞게 제작되었습니다. Databricks에서 PyCharm을 사용하는 경우, PyCharm이 기본적으로 Python 가장 환경을 만들지만 사용자가 구성을 통해 Conda 환경을 만들도록 할 수도 있고 기존 환경을 사용해도 됩니다. {...}
PySpark란 무엇입니까? Apache Spark는 Scala 프로그래밍 언어로 작성되었습니다 PySpark는 Apache Spark와 Python의 공동 작업을 지원하기 위해 릴리스되었으며, 사실상 Spark용 Python API의 일종입니다. 또한 PySpark를 사용하면 Apache Spark와 Python 프로그래밍 언어로 RDD(Resilient Distributed Datasets)에 접속하는 데 도움이 됩니다. 이를 위해 P{...}
RDD는 처음 생겼을 때부터 Spar의 기본 사용자 대상(user-facing) API였습니다. RDD는 본질적으로 데이터의 여러 요소를 모은 변경 불가능한(immutable) 분산형 컬렉션입니다. 클러스터 내 여러 노드에 걸쳐 분할된 형태로 변환이나 작업을 제공하는 저수준 API와 동시에 작업할 수 있습니다. RDD를 사용해야 할 때를 결정짓는 5가지 이유 Dataset에서 저수준 변환, 작업과 제어를 원하는 경우. 데이터{...}
What is a snowflake schema? A snowflake schema is a multi-dimensional data model that is an extension of a star schema, where dimension tables are broken down into subdimensions. Snowflake schemas are commonly used for business intelligence and re{...}
Spark를 다루다 보면 다음과 같은 세 가지 API를 접하게 됩니다. DataFrame, Dataset 그리고 RDD의 세 가지입니다. RDD란 무엇입니까? RDD, 즉 Resilient Distributed Datasets란 분산형 컴퓨팅을 포함한 레코드 컬렉션으로 본질적으로 내결함성이 있고 변경 불가능합니다. 저수준 API와 병력 방식으로 운영할 수 있는데, 이 경우 지연 기능 때문에 Spark 작업이 빠른 속도로 수행됩니다. {...}
What is Spark Elasticsearch? Spark Elasticsearch is a NoSQL, distributed database that stores, retrieves, and manages document-oriented and semi-structured data. It is a GitHub open source, RESTful search engine built on top of Apache Lucene and r{...}
대다수의 데이터 사이언티스트, 애널리스트, 일반 비즈니스 인텔리전스 사용자는 데이터를 탐색할 때 인터랙티브 SQL 쿼리에 의존합니다. Spark SQL은 구조적 데이터 처리를 위한 Spark 모듈입니다. 이 모듈은 일명 DataFrames라는 프로그래밍 추상화를 제공하며 분산형 SQL 쿼리 엔진 역할도 할 수 있습니다. 이것을 이용하면 수정되지 않은 하둡 Hive 쿼리를 기존 배포와 데이터에서 최대 100배 {...}
Apache Spark Streaming is the previous generation of Apache Spark’s streaming engine. There are no longer updates to Spark Streaming and it’s a legacy project. There is a newer and easier to use streaming engine in Apache Spark called Structured Stre{...}
Spark 애플리케이션은 driver 프로세스 하나와 일련의 executor 프로세스로 구성됩니다. driver 프로세스는 main() 함수를 실행하고 클러스터 내 노드에 위치하며 세 가지 작업을 담당합니다. 하나는 Spark 애플리케이션 관련 정보를 유지하는 것, 사용자의 프로그램이나 입력에 대응하는 것, 그리고 나머지 하나는 executor(잠시 후 정의함) 작업을 분석, 배포, 예약하는 것입니다. dri{...}
Spark 성능 튜닝이란 무엇입니까? Spark 성능 튜닝은 시스템이 사용하는 메모리, 코어와 인스턴스를 대상으로 기록할 설정을 조정하는 프로세스를 가리킵니다. 이 프로세스를 거치면 Spark에서 흠잡을 데 없는 성능을 보장할 수 있으며, Spark에서 리소스 병목 현상을 예방하는 효과도 있습니다. 데이터 직렬화란 무엇입니까? 메모리 사용량을 줄이기 위해 Spark RDD를 직렬화 형식으로 저장해야 할 수도 있습니다. 데이터 직{...}
Sparklyr이란 무엇입니까? Sparklyr은 R과 Apache Spark 사이에서 인터페이스를 제공하는 오픈 소스 패키지입니다. 이제 Spark 기능을 최신 R 환경에서도 활용할 수 있습니다. Spark는 분산된 데이터와 상호작용할 수 있으면서도 레이턴시가 짧기 때문입니다. Sparklyr은 인터랙티브 환경에서 대규모 Dataset와 상호작용을 주고받는 데 효과적인 툴입니다. 이렇게 하면 R의 친숙한 툴을 이용해 Spark 데이터를 {...}
SparkR은 Spark에서 R을 실행하는 데 쓰는 툴입니다. 이것도 Spark의 다른 모든 언어 바인딩과 마찬가지로 같은 원칙을 따릅니다. SparkR을 사용하려면 환경에 가져와 코드를 실행하기만 하면 됩니다. 전반적으로 Python API와 아주 비슷한데, Python이 아니라 R의 구문을 따른다는 점만 다릅니다. 대체로 Python에서 이용 가능한 것은 거의 모두 SparkR에서도 이용할 수 있다고 보면 됩니다. {...}
Python은 일명 numpy라는 기본 내장 라이브러리를 제공하여 다차원 배열을 조작합니다. pytensor 라이브러리를 개발하려면 기본적으로 이 라이브러리부터 구성하고 사용해야 합니다. Sptensor는 희소 텐서를 나타내는 클래스입니다. 희소 텐서란 대부분의 입력 항목이 0인 Dataset입니다. 대형 대각선 행렬(diagonal matrix)이 대표적인 예입니다. (값이 0인 원소가 많음). 이것은 텐서 개체의 전체 값을 저장하지{...}
What is a star schema? A star schema is a multi-dimensional data model used to organize data in a database so that it is easy to understand and analyze. Star schemas can be applied to data warehouses, databases, data marts, and other tools. The st{...}
How Does Stream Analytics Work? Streaming analytics, also known as event stream processing, is the analysis of huge pools of current and “in-motion” data through the use of continuous queries, called event streams. These streams are triggered by a{...}
Structured Streaming은 스트림 처리용 고차원 API의 일종으로, Spark 2.2에서는 바로 프로덕션에 적용할 수 있게 되었습니다. Structured Streaming을 사용하면 Spark의 구조적 API를 사용해 배치 모드로 수행하는 것과 같은 연산을 스트리밍 방식으로 실행할 수 있습니다. 이렇게 하면 레이턴시를 줄이고 증분식으로 처리할 수 있게 됩니다. Structured Streaming의 가장 좋은 점은 코드를 사실상 {...}
In November of 2015, Google released its open-source framework for machine learning and named it TensorFlow. It supports deep-learning, neural networks, and general numerical computations on CPUs, GPUs, and clusters of GPUs. One of the biggest advant{...}
Tensorflow Estimator API란 무엇입니까? Estimator는 완전한 모델이지만 적은 사용자에게는 충분히 직관적으로 보입니다. Estimator API를 사용하면 모델을 교육할 방식, 모델의 정확도를 판단할 방식, 예측을 생성할 방식을 얻을 수 있습니다. TensorFlow는 아래 이미지와 같이 여러 개의 API 계층으로 구성된 프로그래밍 스택을 제공합니다. estimator는 두 가지 유형이 있어 사전에{...}
Tungsten Project란 무엇입니까? Tungsten은 Apache Spark의 실행 엔진에 변경 사항을 적용하여 메모리 및 CPU를 Spark 애플리케이션에 적합하게 효율성을 개선하는 데 중점을 두어 성능을 최신 하드웨어 한도에 더 가깝게 밀어붙이고자 추진한 엄브렐라 프로젝트의 코드명입니다. Tungsten Project의 이니셔티브: 메모리 관리와 이진수 처리: 애플리케이션 의미 체계를 활용하여 메모리를{...}
Unified Data Analytics는 새로운 솔루션 카테고리입니다. 데이터 처리를 AI 기술과 통합하여 기업에서 AI를 한결 쉽게 완성할 수 있게 지원하여 각자의 AI 이니셔티브 진행 속도를 빠르게 해줍니다. Unified Data Analytics는 기업에서 다양한 사일로형 데이터 스토리지 시스템을 아우르는 데이터 파이프라인을 구축하는 데 도움이 되며 모델 구축을 위해 레이블이 지정된 Dataset를 준비하는 데 유익합니다. 이렇게 하면{...}
Databricks의 Unified Data Analytics Platform을 이용하면 데이터 사이언스를 엔지니어링, 비즈니스와 통합하여 혁신의 속도를 높여줍니다. Databricks를 Unified Data Analytics Platform으로 활용하면 아무런 한계 없이 엄청난 규모로 데이터를 신속하게 준비하고 정리할 수 있습니다. 또한 이 플랫폼을 이용하면 각종 인공지능 애플리케이션 전체에 ML 모델을 지속해서 교육하고 {...}
Unified Data Warehouse란 무엇입니까? 기업의 통합 데이터베이스인 엔터프라이즈 데이터 웨어하우스에는 한 기업 조직의 각종 비즈니스 정보가 모두 보관되어 있어 회사 전체에서 액세스할 수 있게 해줍니다. 오늘날 대부분 기업에서는 데이터를 서로 격리된 사일로에서 관리하고, 동시에 같은 조직에 소속된 여러 팀에서도 다양한 데이터 관리 툴을 사용해 여러 가지 유형의 데이터를 관리합니다. 예를 들어 데이터 품질, 데이터 통합, 데이터{...}
Databricks Delta의 Delta 파이프라인/구체화 뷰 Intro Delta 파이프라인은 데이터 파이프라인 수명 주기를 관리할 수 있도록 일련의 API와 UI를 제공합니다. 이것은 오픈 소스 프레임워크로 데이터 엔지니어링 팀에서 ETL 개발을 간소화하고 데이터 안정성을 개선하며 운영을 확장하는 데 도움이 됩니다. 데이터 변환을 위해 코딩하고 작업을 예약하는 방식이 아니라, 선언적 파이프라인을 구축하여 여러분이 원하는{...}
대체 데이터란 무엇입니까? 대체 데이터(Alternative data)는 남들이 사용하지 않는, 비일반적인 정보 출처를 가리키는 대안적(alternative) 데이터 소스를 사용해 수집한 정보입니다. 대체 데이터를 분석하면 업계의 평범한 데이터 소스가 제공할 수 있는 범위를 벗어난 인사이트를 얻을 수 있습니다. 다만 정확히 무엇을 대체 데이터로 간주해야 하는지는 업종마다 다릅니다. 이 개념의 정의는 우리 회사나 경쟁사가 이미 사용 중인 기{...}
데이터 거버넌스란 무엇인가요? 데이터 거버넌스는 데이터가 가치를 창출하는지 확인하는 감독 행위이며, 비즈니스 전략을 지원하는 활동입니다. 데이터 거버넌스는 단순한 도구나 프로세스가 아닙니다. 사람, 프로세스, 기술, 데이터와 관련하여 비즈니스 목표와 목적을 지원하는 문화에 초점을 맞추고, 프레임워크를 통해 비즈니스 전략에 데이터 관련 요구 사항을 일치시킵니다. 데이터 거버넌스는 비즈니스에 어떤 장점{...}
데이터 공유란 무엇인가요? Data sharing은 하나 또는 여러 명의 고객에게 같은 데이터를 제공할 수 있는 기능입니다. 요즘 들어서는 어느 회사에서나 지속적으로 늘어나는 방대한 데이터 자체가 전략적 자산이 되었습니다. 조직 안팎으로 데이터를 공유하는 것은 새로운 사업 기회를 발견할 수 있도록 도와주는 기술이기도 합니다. 외부 소스에서 데이터를 사용하는 것은 물론이고, 데이터를 공유하면 ​​파트너와 협업할 수 있으며, 새로운 {...}
데이터 레이크하우스란 무엇입니까? 데이터 레이크하우스는 데이터 레이크가 가지고 있는 유연성, 비용 효율성, 그리고 대용량 지원 기능에 더해, 데이터 웨어하우스의 데이터 관리 기능과 ACID 트랜잭션을 통합한 새로운 형태의 오픈 데이터 관리 아키텍처로, 모든 데이터를 대상으로 비즈니스 인텔리전스(BI)와 머신 러닝(ML)을 지원합니다. 데이터 레이크하우스: 단순함, 유연함 그리고 저렴한 비용 데이터 레이크하우스는 새로운 {...}
데이터 분석 플랫폼이란 무엇입니까? 데이터 분석 플랫폼은 용량이 크고 복잡한 동적 데이터를 대상으로 분석을 수행해야 하는 서비스와 기술로 구성된 에코시스템입니다. 이것을 통해 회사에 속한 다양한 출처로부터 얻은 데이터를 검색, 조합, 데이터와 상호작용을 주고받기도 하고 탐색, 표시할 수 있습니다. 종합적인 데이터 분석 플랫폼에는 다양한 기능을 내장한 여러 가지 툴이 포함되어 있습니다. 예측 분석과 데이터 시각화부터 로케이션 인텔리전스(Lo{...}
리테일용 레이크하우스란 무엇인가요? 리테일용 레이크하우스은 Databricks에서 첫 번째로 출시한 업종별 레이크하우스입니다. 솔루션 액셀러레이터, 데이터 공유 기능과 파트너 에코시스템을 통해 소매업체가 빨리 운영을 정상화하도록 돕습니다. 리테일용 레이크하우스는 기술, 파트너, 도구, 산업 이니셔티브의 정점으로서 데이터 + AI를 중심으로 협업을 강화합니다. 리테일용 레이크하우스는 4가지로 구성됩니다. 통합 데{...}
Apache Spark의 머신 러닝 라이브러리(Machine Learning Library, MLlib)는 단순성, 확장성, 다른 툴과의 통합을 염두에 두고 고안하였습니다. 데이터 사이언티스트는 Spark의 확장성, 언어 호환성과 속도를 활용하여 데이터 문제점과 모델에만 집중할 수 있습니다. 즉 분산형 데이터를 둘러싼 복잡한 문제(인프라, 구성 등)를 해결하는 데 시간을 뺏기지 않아도 됩니다. MLlib은 Spark 기반으로 구축된 확장할 수 {...}
머신 러닝 모델이란 무엇입니까? 머신 러닝 모델이란 이전에 접한 적 없는 데이터 세트에서 패턴을 찾거나 이를 근거로 결정을 내릴 수 있는 프로그램입니다. 예를 들어 자연어 처리의 경우, 머신 러닝 모델은 파싱을 통해 이전에 접한 적 없는 문장이나 단어 조합의 배후 의도를 올바로 인식할 수 있습니다. 이미지 인식의 경우, 머신 러닝 모델이 자동차나 개 등 사물을 인식하도록 교육할 수 있습니다. 머신 러닝 모델은 대규모 데이터 세트로 '교육'{...}
모델 리스크 관리란 잘못된 모델이나 잘못 사용된 모델을 근거로 한 의사 결정으로 인한 잠재적인 나쁜 결과에서 발생하는 리스크를 감독 관리하는 것을 말합니다. 모델 리스크 관리의 목표는 모델 리스크를 파악, 계측하여 완화할 기법과 관행을 동원하는 데 있습니다. 예를 들어 모델 오류나 잘못된 모델 사용 가능성을 알아내는 것입니다. 금융 서비스의 경우, 모델 리스크는 정확도가 충분하지 않은 모델을 사용해 의사 결정을 내려 발생하는 손실 위험입니다. {...}
밀집 텐서는 인접한 순차적 메모리 블록에 값을 저장하는데, 이곳에 모든 값이 표시됩니다. 텐서, 즉 다차원 어레이는 매우 다양한 다차원 데이터 분석 애플리케이션에서 사용됩니다. 텐서 연산을 수행할 줄 아는 소프트웨어 제품은 많습니다. 예를 들어 MATLAB 스위트의 경우, 다양한 오픈 소스 타사 툴박스로 보강되기까지 했습니다. MATLAB 단독으로 다양한 요소 관련 이진수 밀집 텐서 연산을 지원할 수 있습니다. dense 계층은 완전히 연결된 {...}
베이지안 신경망이란 무엇입니까? 베이지안 신경망(Bayesian Neural Networks, BNN)은 과적합(overfitting)을 제어하기 위해 사후 추론을 사용해 표준 네트워크를 연장한 것을 가리킵니다. 넓은 의미에서 보면 베이지안 방식은 통계적인 방법론을 사용해 모델 매개변수(신경망의 가중치와 편향)를 비롯한 모든 것에 확률 분포가 수반된다고 볼 수 있습니다. 프로그래밍 언어에서 특정 값을 취할 수 있는 변수는 해당 변수에 액세{...}
변환이란 무엇입니까? Spark에서 코어 데이터 구조가 변경 불가능(immutable)하다는 것은 일단 생성하면 변경할 수 없다는 뜻입니다. 이것은 처음에는 조금 기이한 개념으로 여겨질 수 있습니다. 변경할 수 없다면 어떻게 사용합니까? DataFrame을 "변경"하려면 Spark에 지금 가지고 있는 DataFrame을 원하는 버전으로 수정할 방법을 지시해야 합니다. 이런 지침을 변환(transformations)이라고 {...}
Databricks Delta 테이블의 복수 문 트랜잭션 Databricks는 기본 테이블이 Databricks Delta 테이블인 경우 복수 문(multi-statement) 트랜잭션을 지원합니다.  다시 말해 트랜잭션 내에 속한 모든 문이 원자성(atomic)입니다(모두 성공 또는 모두 실패). 두 가지 스레드/사용자를 예로 든 다음 타임라인을 보겠습니다. Thread 1은 UPDATE 스레드이고 Thread 2{...}
복합 이벤트 처리(CEP)란 무엇입니까? 복합 이벤트 처리(Complex event processing [CEP])는 다른 말로 이벤트, 스트림 또는 이벤트 스트림 처리라 하며 기술을 사용해 데이터를 쿼리한 다음 데이터베이스 내에 저장하거나, 경우에 따라서는 애초에 전혀 저장하지 않고 쿼리하는 것을 말합니다. 복합 이벤트 처리는 구성 툴의 일종으로, 대량의 서로 다른 정보를 집계하며 실시간으로 여러 이벤트 사이의 인과 관계를 식별 및 분석{...}
데이터 분석과 빅데이터 분석의 차이 하둡이 발명되기 전에는 현대식 스토리지와 컴퓨팅 시스템의 기저를 이루는 기술이 비교적 기본적이어서, 기업에서는 대부분 "스몰 데이터" 분석만 가능한 한계가 있었습니다. 다만 이렇게 비교적 기본적인 형태의 분석도 어려울 수 있습니다. 특히 새로운 데이터 소스를 통합하는 경우 분석이 쉽지 않습니다. 기존 데이터 분석의 경우, 주로 관계형 데이터베이스(예: SQL 데이터베이스)를 사용하고 구조적 데이터 테이블{...}
생물정보학(Bioinformatics)이란 생물학 데이터를 모은 대규모 컬렉션에서 연산을 통해 지식을 추출하는 학문 분야를 말합니다. 생물정보학은 생물학적 데이터를 저장, 검색, 구성하고 분석하는 데 생물공학 IT를 사용하는 분야를 일컫습니다. 유전체 서열(genome sequencing) 프로젝트나 여타 연구에서 엄청난 양의 데이터가 생성되었는데, 이 데이터 웨이브의 결과 생물학 분야의 난제는 대부분 컴퓨팅 쪽 문제로 바뀌게 되었{...}
What is Overall Equipment Effectiveness? Overall Equipment Effectiveness(OEE) is a measure of how well a manufacturing operation is utilized (facilities, time and material) compared to its full potential, during the periods when it is scheduled to{...}
수요 예측이란 무엇인가요? 수요 예측은 소비자 수요(=미래의 수익)를 예측하는 과정입니다. 특히, 쇼핑객이 구매할 제품군을 정량적 데이터와 정성적 데이터를 사용하여 예측합니다. 소매업체는 소비자가 원하는 시점에 제품을 제공하지 못해 1조 달러 규모에 이르는 수익을 놓치고 있습니다. 수요 예측에 실패한 기업은 매장에 잘못된 제품을 공급하거나 심지어는 재고가 동이 나기도 합니다. 리테일용 레이크하우스는 수요 예측을 어떻게 지{...}
신경망이란 무엇입니까? 신경망이란 뇌 속 뉴런의 망형 구조를 닮은 다층형 구조의 컴퓨팅 모델입니다. 여기에는 서로 연결된 처리 소자, 일명 '뉴런'이라는 것이 있으며 이들이 서로 협력하여 출력 함수를 도출합니다. 신경망은 입력 및 출력 계층/차원으로 구성되며 대부분은 숨겨진 계층도 있습니다. 숨겨진 계층은 입력을 출력 계층에서 사용할 수 있는 무언가로 변환해주는 단위로 구성됩니다. 신경망 아키텍처의 유형: 신경망, 다른 말로 인{...}
소매업에서 실시간 데이터는 무엇인가요? 실시간 리테일(Real-time retail)이란 데이터에 실시간 액세스하는 것을 말합니다. 배치 중심 액세스, 분석, 컴퓨팅에서 벗어나면 데이터를 "언제든" 사용할 수 있어 정확하고 시기적절하게 의사결정을 내리고 비즈니스 인텔리전스를 얻을 수 있습니다. 수요 예측, 개인화, 진열 상품 가용성, 도착 시간 예측, 주문 수령과 통합 등의 실시간 사용 사례는 공급망 민첩성을 개선하고 서비스{...}
이상치 탐지(Anomaly Detection)은 나머지 관측 결과와는 통계적으로 달라 의심을 유발할 수 있는 드문 이벤트나 관측 결과를 알아보는 기법입니다. 그러한 “변칙” 행동은 보통 신용카드 사기 행위, 시스템 오류나 사이버 공격 등 일종의 문제점으로 해석될 때가 많습니다. 금융계의 경우, 감시해야 할 트랜잭션이 수천 건에서 수백만 건에 달하므로 변칙 검색을 이용하면 오류가 발생하는 위치를 짚어내어 근본 원인 분석을 강화하고, 문제에 신속히{...}
자동화 편향이란 무엇입니까? 자동화 편향(Automation bias)은 자동 보조 도구나 의사 결정 지원 시스템에 지나치게 의존하는 것을 말합니다. 자동 의사 결정 보조 도구가 널리 보급되면서 중환자실이나 항공기 조종석과 같이 중대한 의사 결정을 내려야 하는 상황에서 이런 도구를 이용하는 사례가 점점 흔해지고 있습니다. 사람은 인지적인 노력이 가장 적게 필요한 길을 택하여 "자동화 편향"으로 기우는 경향이 있습니다. 같은 개념을 AI와 {...}
Delta Live 테이블 Delta Live Table(DLT)을 사용하면 Delta Lake에서 고품질 데이터를 제공하는 안정적인 데이터 파이프라인을 손쉽게 구축하고 관리할 수 있습니다.   Databricks의 ETL 자세히 알아보기   ETL이란 무엇입니까? 기업에서 다루는 데이터, 데이터 소스와 데이터 유형의 양이 늘어나면서 분석, 데이터 사이언스와 머신 러닝{...}
딥러닝에서 컨볼루셔널 신경망(Convolutional Neural Network, CNN 또는 ConvNet)이란 심층 신경망의 한 등급으로, 보통 이미지 속에 존재하는 패턴을 인지하는 데 쓰이지만 이외에 공간 데이터 분석, 컴퓨터 비전, 자연어 처리, 신호 처리 및 여타 다양한 용도에도 쓰입니다. 컨볼루셔널 신경망의 구조는 사람의 뇌 속 뉴런의 연결 패턴과 닮은 형태를 취하며 시각 피질(Visual Cortex) 조직에서 영감을 얻었습니다. {...}
하둡이란 무엇입니까? "하둡"이란 무엇을 의미할까요? 더 중요한 것은, "하둡"은 무엇의 약자일까요? 사실, 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform)을 뜻합니다. 하둡 기술은 바로 이런 장점을 개발자에게 제공합니다. 즉, 객체 지향적 작업을 병렬 분산하여 고가용성을 확보할 수 있습니다. Apache Hadoop은 오픈 소스, Java 기반 {...}
하둡 에코시스템이란 무엇입니까? Apache Hadoop 에코시스템이란 Apache Hadoop 소프트웨어 라이브러리를 이루는 다양한 구성 요소를 말합니다. 오픈 소스 프로젝트는 물론 광범위한 보조 툴이 많습니다. 하둡 에코시스템 중에서 가장 잘 알려진 툴을 몇 가지만 예로 들면 HDFS, Hive, Pig, YARN, MapReduce, Spark, HBase , Oozie, Sqoop, Zookeeper&nb{...}