용어집(Glossary) 아카이브

Glossary

인공 신경망이란 무엇입니까? 인공 신경망(Artificial Neural Network, ANN)은 사람의 뇌 속 뉴런의 작용을 본떠 패턴을 구성한 컴퓨팅 시스템의 일종입니다. 인공 신경망은 어떻게 작동합니까? 인공 신경망(ANN)은 가중치를 적용한 방향성 그래프라고 보면 가장 적당합니다. 이를 보통 여러 계층으로 구조화합니다. 이러한 계층에는 사람의 뇌 속에 있는 생물학적 뉴런을 모방한 수많은 노드가 있고, 이들이 서로 연결되어 있으며 활성화{...}

ACID 트랜잭션

트랜잭션이란 무엇입니까? 데이터베이스와 데이터 스토리지 시스템이라는 맥락에서 트랜잭션이란 한 단위의 작업으로 취급되는 모든 작업을 말합니다. 트랜잭션은 완전히 완료되기도 하고 전혀 완료되지 않을 수도 있으며, 스토리지 시스템을 한결같은 상태로 둡니다. 트랜잭션의 전형적인 예는 은행 계좌에서 현금을 인출할 때 일어나는 일입니다. 현금이 계좌에서 인출되거나, 인출되지 않거나 둘 중의 하나일 뿐 그 중간 어딘가의 상태란 없습니다. {...}

AdaGrad(최적화 알고리즘)

경사하강법(Gradient descent)은 머신 러닝과 딥러닝 알고리즘에서 가장 보편적으로 쓰이는 최적화 방식입니다. 머신 러닝 모델을 트레이닝하는 데 쓰입니다. 경사하강법의 유형 최신 머신 러닝 및 딥러닝 알고리즘에 쓰이는 경사하강법은 크게 세 가지 유형으로 나눌 수 있습니다. 배치 경사하강법 배치 경사하강법(Batch Gradient Descent)이 그중 가장 간단한 유형입니다. 이것은 트레이닝 데이터세트의 각 예제를 대상으로 오류를 계{...}

AI 거버넌스란 무엇인가? 책임감 있는 AI를 위한 명확한 가이드

AI 거버넌스란 무엇인가요?AI 거버넌스는 인공지능 시스템이 전체 수명 주기 동안 책임감 있게 개발, 배포, 운영되도록 조직에서 사용하는 프레임워크, 정책, 프로세스의 집합입니다. 이 용어는 AI 기반 결정과 결과에 대한 윤리적 고려 사항, 규정 준수, 위험 관리, 책임성을 다루는 모든 감독 메커니즘을 의미합니다.AI 시스템 이 비즈니스 및 사회 운영에 점점 더 통합됨에 따라 견고한 거버넌스 관행이 필수가 되었습니다. 조직은 규제 기관, 고객,{...}

AI 모델(AI Model)이란 무엇인가요?

AI 모델이란 무엇인가요? AI 모델은 데이터를 사용하여 패턴을 인식하고 예측하고 결정을 내리는 컴퓨터 프로그램입니다. AI 모델은 산술, 반복, 결정 로직에 기반한 단계별 규칙인 알고리즘을 사용합니다. 이를 통해 인간의 개입 없이 추론, 학습 및 문제 해결과 같은 인간과 같은 기능을 수행할 수 있습니다. AI 모델은 정보를 분석하고 복잡하고 동적인 문제를 해결하며 대량의 데이터를 사용하여 통찰력을 제공하는 데 능숙합니{...}

AI 미세 조정(Fine-tuning, 파인튜닝)

파인튜닝 이해하기 특정 목적을 위해 인공 지능 (AI) 및 머신 러닝 (ML) 모델을 훈련시킬 때, 데이터 과학자와 엔지니어들은 기존의 사전 훈련된 대형 언어 모델 (LLM)을 수정하는 것이 처음부터 새로운 모델을 훈련시키는 것보다 더 쉽고 비용이 적게 든다는 것을 발견했습니다. 대형 언어 모델의 기반이 되는 것은 광범위한 데이터셋에 훈련된 강력하고 범용적인 AI로, 다양한 주제와 작업에 걸쳐 인간과 같은 텍스트를 이해하고 생성할 수 있습니다.{...}

AI 에이전트(AI Agent)란 무엇인가요? 정의, 예시, 유형

AI 에이전트란 무엇인가요?요약AI 에이전트가 인식하고, 결정하고, 자율적으로 행동하는 방식을 포함하여 기존 AI 시스템과 어떻게 다른지 알아보세요.1960년대 초기의 규칙 기반 프로그램에서부터 오늘날의 고급 학습 기반 시스템에 이르기까지 AI 에이전트의 진화 과정을 살펴보세요.AI 에이전트 배포를 위한 모범 사례는 물론, 금융, 의료, 소매와 같은 산업을 AI 에이전트가 어떻게 혁신하고 있는지 알아보세요.인공 지능 (AI) 에이전트는 AI의 {...}

Apache Hive (아파치 하이브)

Apache Hive란 무엇입니까? Apache Hive는 광범위한 Hadoop 에코시스템에 속하는 Apache Hadoop Distributed File System(HDFS)에서 추출한 대용량 데이터세트를 읽고, 쓰고, 관리하도록 설계된 오픈 소스 데이터 웨어하우스 소프트웨어입니다. Apache Hive는 광범위한 Apache Hive 문서 및 지속적 업데이트를 통해 쉽게 액세스할 수 있는 방식으로 계속해서 데이터 처리를 혁신합니다{...}

Apache Kylin(온라인 분석 처리 엔진)

Apache Kylin이란 무엇입니까? Apache Kylin은 인터랙티브 분석 빅 데이터에 적합한 분산형 오픈 소스 온라인 분석 처리(Online Analytics Processing, OLAP) 엔진입니다. Apache Kylin은 하둡/Spark에서 SQL 인터페이스와 다차원 분석(OLAP)을 제공하기 위해 고안되었습니다. 또한 ODBC 드라이버, JDBC 드라이버 및 REST API를 사용해 BI 툴과 손쉽게 통합할 수도 있습니{...}

Apache Spark 서비스형(Apache Spark as a Service)

Apache Spark as a Service란 무엇입니까? Apache Spark는 고속 실시간 대규모 데이터 처리를 위한 오픈 소스 클러스터 컴퓨팅 프레임워크입니다. Spark는 2009년 UC 버클리 AMPLab에서 탄생한 이래 큰 성장을 이루었습니다. 지금은 빅데이터 부문에서 가장 큰 오픈 소스 커뮤니티로 평가되며 50여 개 조직과 단체에서 200여 명이 기여하고 있습니다. Databricks는 자사 Apache Spark 최적화 버전을{...}

Bioinformatics (생물정보학)

생물정보학(Bioinformatics)이란 생물학 데이터를 모은 대규모 컬렉션에서 연산을 통해 지식을 추출하는 학문 분야를 말합니다. 생물정보학은 생물학적 데이터를 저장, 검색, 구성하고 분석하는 데 생물공학 IT를 사용하는 분야를 일컫습니다. 유전체 서열(genome sequencing) 프로젝트나 여타 연구에서 엄청난 양의 데이터가 생성되었는데, 이 데이터 웨이브의 결과 생물학 분야의 난제는 대부분 컴퓨팅 쪽 문제로 바뀌게 되었습니다. 생물{...}

Catalyst Optimizer

Spark SQL의 핵심은 Catalyst Optimizer입니다. 이것은 지능형 프로그래밍 언어 기능(예: Scala의 패턴 매칭과 quasi quote 등)을 참신한 방식으로 활용해 확장할 수 있는 쿼리 최적화 프로그램을 구축합니다. Catalyst는 Scala로 쓴 기능성 프로그래밍 구조를 기반으로 하며 다음과 같은 두 가지 용도를 염두에 두고 고안하였습니다.Spark SQL에 새로운 최적화 기법과 특징을 손쉽게 추가최적화 프로그램 확장을{...}

Convolutional Layer(컨볼루션 레이어)

딥러닝에서 컨볼루셔널 신경망(Convolutional Neural Network, CNN 또는 ConvNet)이란 심층 신경망의 한 등급으로, 보통 이미지 속에 존재하는 패턴을 인지하는 데 쓰이지만 이외에 공간 데이터 분석, 컴퓨터 비전, 자연어 처리, 신호 처리 및 여타 다양한 용도에도 쓰입니다. 컨볼루셔널 신경망의 구조는 사람의 뇌 속 뉴런의 연결 패턴과 닮은 형태를 취하며 시각 피질(Visual Cortex) 조직에서 영감을 얻었습니다. {...}

DAG(방향성 비순환 그래프)란 무엇인가요?

흔히 DAG라고 알려진 방향성 비순환 그래프는 데이터 엔지니어링, 분석 및 AI의 기본 개념입니다. 이는 작업, 종속성 및 정보의 흐름을 구조화된 방식으로 나타내는 방법을 제공합니다. 데이터 파이프라인을 구축하든, 머신러닝 워크플로를 오케스트레이션하든, 인과 관계를 연구하든 DAG는 단계가 연결되는 방식과 실행 순서를 매핑하는 간단하고 신뢰할 수 있는 방법을 제공합니다.DAG는 방향성이 있고 비순환적이며 에지로 연결된 노드로 구성된 세 가지 정{...}

Data Transformation (데이터 변환)

데이터 변환이란? 데이터 변환은 데이터 소스에서 추출된 가공되지 않은 데이터를 사용 가능한 데이터세트로 변환하는 프로세스입니다. 데이터 파이프라인에는 여러 데이터 변환이 포함되는 경우가 많으며, 복잡한 정보를 정제되고 신뢰할 수 있는 고품질의 데이터로 변경하여 조직의 운영 요구 사항을 충족하고 실행 가능한 인사이트를 생성하는 데 사용할 수 있도록 합니다. 데이터 변환 프로세스는 데이터 엔지니어링의 핵심 프로세스입니다. {...}

Databricks Runtime이 무엇인가요?

Databricks Runtime은 Databricks에서 관리하는 머신 클러스터에서 실행되는 소프트웨어 아티팩트 세트입니다. 여기에는 Spark도 포함하지만 이외에도 여러 구성요소와 업데이트를 추가하여 빅데이터 분석의 사용성, 성능과 보안을 대폭 개선해줍니다. 주된 차별점은 다음과 같습니다.DBIO로 성능 개선: Databricks I/O 모듈, 즉 DBIO는 수직으로 통합된 스택을 활용해 클라우드 내 Spark의 성능을 대폭 개선합{...}

DNA 염기서열 (DNA Sequence)

DNA 서열이란 무엇입니까? DNA 서열은 DNA(deoxyribonucleic acid, 디옥시리보 핵산)의 뉴클레오타이드(nucleotides)의 정확한 순서를 판별하는 과정입니다. DNA 서열은 네 가지 화학적 기본 요소인 아데닌, 구아닌, 사이토신, 타이민 등 DNA 분자 내에서 발생하는 화학 물질의 순서를 말합니다. 이러한 염기의 조합인 ATCG는 모든 생물의 genomic DNA 정보를 이루는 기본 단위입니다. 처음으로 서{...}

Hadoop (하둡)

아파치 하둡(Apache Hadoop)은 오픈 소스, Java 기반 소프트웨어 플랫폼으로 빅데이터 애플리케이션용 데이터 처리와 스토리지를 관리하는 역할을 합니다. Hadoop 플랫폼은 컴퓨팅 클러스터 내 여러 노드에 Hadoop 기반 빅데이터 처리와 분석 작업을 분산하고, 이를 동시에 실행할 수 있는 작은 단위의 워크로드로 분해합니다. Hadoop의 주요 장점은 확장성, 복원력, 유연성입니다. HDFS(Hadoop Distributed File{...}

Hadoop Cluster (하둡 클러스터)

하둡 클러스터란 무엇입니까? Apache Hadoop은 오픈 소스, Java 기반 소프트웨어 프레임워크이자 병렬식 데이터 처리 엔진입니다. 하둡을 이용하면 빅데이터 분석 처리 작업을 작은 크기의 작업으로 분해하여 알고리즘(예를 들어 MapReduce 알고리즘 같은)을 사용하여 병렬식으로 수행할 수 있고, 그런 다음 하둡 클러스터에 배포하면 됩니다. 하둡 클러스터란 네트워크로 서로 연결된 일련의 컴퓨터('노드'라고 함){...}

HDFS, Hadoop Distributed File System (하둡 분산 파일 시스템)

HDFS HDFS(하둡 분산형 파일 시스템)는 하둡 애플리케이션에서 사용하는 기본 스토리지 시스템입니다. 이 오픈 소스 프레임워크는 노드 사이에 데이터를 고속으로 전송하며 주로 빅데이터를 처리하고 저장해야 하는 기업이 사용하는 경우가 많습니다. HDFS는 빅데이터를 관리하고 빅데이터 분석을 지원하는 수단을 제공하기 때문에 많은 하둡 시스템의 핵심 구성 요소입니다. 전세계 많은 기업들이 사용하고 있는 HDFS란 정확히 무엇이며 왜 필요할까요? H{...}

Hive 날짜 함수 (Hive Date Function)란 무엇인가요?

Hive 날짜 함수란 무엇입니까?Hive는 수많은 기본 내장 함수를 제공하여 데이터 처리와 쿼리에 도움이 됩니다. 이런 함수가 제공하는 기능 중에는 문자열 조작, 날짜 조작, 타입 변환, 조건 연산자, 수학적 함수 등이 있으며 이외에도 여러 가지가 있습니다.HIVE 기본 내장 함수의 유형날짜 함수주로 날짜에 일수를 더하는 등 이와 비슷한 연산의 날짜 데이터 타입을 대상으로 한 연산을 수행하는 데 쓰입니다.수학적 함수이런 함수는 대체로 수학 계산{...}

Hosted Spark

Hosted Spark란 무엇입니까?Apache Spark는 속도, 사용 편이성과 고급 분석을 중심으로 구축된 빅데이터용 고속, 일반 클러스터 컴퓨팅 시스템입니다. 2009년에 UC 버클리에서 처음 구축되었습니다. Scala, Java, Python과 R에서 고수준 API를 제공하며 데이터 분석에 적합한 범용 연산 그래프를 지원하는 최적화 엔진도 있습니다. 이외에도 SQL과 DataFrame용 Spark SQL, 머신 러닝용 MLlib, 그래프{...}

Jupyter Notebook(주피터 노트북)

Jupyter Notebook이란 무엇입니까? Jupyter Notebook은 오픈 소스 웹 애플리케이션으로, 데이터 사이언티스트가 라이브 코드, 식, 기타 멀티미디어 리소스를 포함하여 문서를 생성 및 공유하는 데 사용할 수 있습니다. 주피터 노트북은 어떤 용도로 사용하나요? 주피터 노트북은 탐색적 데이터 분석(EDA), 데이터 정리 및 변환, 데이터 시각화, 통계적 모델링, 머신 러닝, 딥 러닝 등의 각종 데이터 사이언스 작업에 사용합니다. {...}

Keras Model (케라스 모델)

Keras 모델이란 무엇입니까? Keras는 Theano와 Tensorflow 기반의 딥러닝용 고차원 라이브러리입니다. Python 언어로 쓰여 광범위한 딥러닝 모델을 깔끔하고 편리하게 제작할 수 있습니다. Keras는 신경망 개발, 테스트에 관한 한 가장 애용되는 고수준 신경망 API 중 하나로 자리 잡았습니다. Keras 고수준 API 덕분에 요즘은 신경망 계층을 생성하고 복잡한 아키텍처를 설정하는 것쯤은 간단한 {...}

LLMOps(Large Language Model Ops)

LLMOps란 무엇인가요?LLMOps(Large Language Model Ops)는 프로덕션 환경에서 대규모 언어 모델의 운영 관리에 사용되는 사례, 기술 및 도구를 포괄합니다.OpenAI의 GPT, Google의 Bard 그리고 Databricks의 Dolly가 출시된 후로 강조되고 있는 최신 LLM 기술은 LLM을 구축하고 배포하는 기업의 성장에 상당한 영향을 미치고 있습니다. 따라서 이러한 모델을 운영하는 방법에 대한 모범 사례를 구축해{...}

Managed Spark

Managed Spark란 무엇입니까? Managed Spark 서비스를 이용하면 일괄 처리, 쿼리, 스트리밍과 머신 러닝 등을 위한 오픈 소스 데이터 툴을 유리하게 활용할 수 있습니다. 이러한 자동화 기능을 이용하면 필요에 따라 신속하게 클러스터를 만들어 간편하게 관리하고, 작업이 완료되면 끌 수 있습니다. 또한 워크로드, 성능 요구사항에 따라서나 기존 리소스를 바탕으로 클러스터 크기를 조정할 수도 있습니다. 뿐만 아니라 완전한 Managed{...}

MLOps

MLOps란 무엇입니까? MLOps는 머신 러닝 작업(Machine Learning Operations)을 뜻합니다. MLOps는 머신 러닝 모델을 프로덕션으로 전환하는 프로세스를 간소화하고, 뒤이어 이를 유지관리하고 모니터링하는 데 주안점을 둔 머신 러닝 엔지니어링의 핵심 기능입니다. MLOps는 협업 기능이며, 주로 데이터 사이언티스트, DevOps 엔지니어, IT로 구성됩니다. MLOps의 용도는 무엇입니까? MLOps는 머신 러닝과 AI{...}

OLAP란 무엇인가요? 비즈니스 인텔리전스를 위한 온라인 분석 처리(OLAP) 이해하기

OLAP은 다차원에 걸쳐 데이터를 빠르고 대화형으로 분석하는 방법입니다. 온라인 분석 처리는 사용자가 각 단계에 대해 새로운 쿼리를 작성하지 않고도 추세를 탐색하고 성능 관련 질문을 조사할 수 있도록 정보를 구조화합니다. 다차원 데이터 분석을 위해 정보를 구조화함으로써 OLAP은 팀이 기간, 제품 라인, 고객 그룹 또는 지역에 걸쳐 측정항목이 어떻게 작동하는지 이해하도록 돕습니다.OLAP은 분석 데이터를 탐색하고 소비하는 방식을 개선하여 많은 {...}

Pandas Dataframe(판다스 데이터프레임)

데이터 사이언스 분야에서 pandas DataFrame으로 데이터 사이언스의 모든 잠재력을 이끌어 낸다면 기업의 업무 방식을 혁신할 수 있다는 말은 과장이 아닙니다. 이를 위해서는 적합한 데이터 구조가 필요하며 적합한 데이터 구조를 사용하면 데이터를 조작하고 분석하면서 효율성을 극대화할 수 있습니다. 이러한 목적을 위해 사용 가능한 가장 유용한 데이터 구조 중 하나가 pandas DataFrame입니다. pandas(판다스)는 Python(파{...}

Polars 대 pandas: 데이터 워크플로에 적합한 Python DataFrame 라이브러리 선택하기

서론: DataFrame 라이브러리 옵션 이해하기데이터프레임 은 일반적으로 스프레드시트와 유사한 테이블 형태의 2차원 데이터 구조로, 관측치 행과 변수 열로 구성된 테이블 형식 데이터를 저장하고 조작할 수 있으며 주어진 데이터 세트에서 귀중한 정보를 추출할 수 있습니다. 데이터프레임 라이브러리는 코드에서 데이터를 다루기 위해 스프레드시트와 유사한 구조를 제공하는 소프트웨어 툴킷입니다. 데이터프레임 라이브러리는 데이터를 쉽게 로드, 조작, 분석,{...}

PostgreSQL 데이터베이스 이해하기: 특징 및 장점 설명

PostgreSQL 소개PostgreSQL 데이터베이스는 구조화된 데이터를 저장, 구성, 검색하는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 이 관계형 데이터베이스는 데이터 테이블 간의 관계를 강제하고, 데이터가 시스템에 입력될 때 유효성을 검사하며, 여러 사용자가 동시에 변경하더라도 데이터 정확성을 유지합니다. 기업들은 라이선스 비용 없이 신뢰할 수 있고 표준을 준수하는 관계형 데이터베이스가 필요할 때 PostgreSQL을 선택합니다.{...}

PyCharm(파이참)이란 무엇인가요?

PyCharm(파이참)은 Python(파이톤)프로그래밍 언어를 개발하기 위해 사용되는 통합 개발 환경(Intergrated Development Environment, IDE)입니다. JetBrains에서 개발한 파이참은 코드 작성, 디버깅, 테스트, 배포 등 Python 개발과 관련된 모든 과정을 효율적으로 처리할 수 있는 강력한 도구를 제공합니다.PyCharm(파이참)은 Python(파이톤) 기반의 애플리케이션, 라이브러리, 알고리즘 개발뿐{...}

PySpark란 무엇인가요?

PySpark란 무엇입니까?Apache Spark는 Scala 프로그래밍 언어로 작성되었습니다. PySpark는 Apache Spark와 Python의 공동 작업을 지원하기 위해 출시되었으며, 사실상 Spark용 Python API의 일종입니다. 또한 PySpark를 사용하면 Apache Spark와 Python 프로그래밍 언어로 RDD(Resilient Distributed Datasets)에 접속하는 데 도움이 됩니다. 이를 위해 Py4j {...}

RDD(Resilient Distributed Dataset)란 무엇인가요?

RDD는 처음 생겼을 때부터 Spar의 기본 사용자 대상(user-facing) API였습니다. RDD는 본질적으로 데이터의 여러 요소를 모은 변경 불가능한(immutable) 분산형 컬렉션입니다. 클러스터 내 여러 노드에 걸쳐 분할된 형태로 변환이나 작업을 제공하는 저수준 API와 동시에 작업할 수 있습니다.RDD를 사용해야 할 때를 결정짓는 5가지 이유Dataset에서 저수준 변환, 작업과 제어를 원하는 경우.데이터가 비구조적인 경우(미디어{...}

Spark Elasticsearch (스파크 엘라스틱서치)

Spark Elasticsearch이란 무엇인가요?Spark Elasticsearch는 NoSQL 분산형 데이터베이스의 일종으로 문서 중심적 반정형 데이터를 저장하고 검색하고 관리합니다. 이 데이터베이스는 Apache Lucene 기반 GitHub 오픈 소스 RESTful 검색 엔진이며 Apache License 약관에 따라 릴리스되었습니다.Elasticsearch는 Java 기반이기 때문에 여러 가지 다양한 형식으로 문서 파일을 검색 및 인덱{...}

Spark SQL란 무엇인가요?

대부분의 데이터 사이언티스트, 애널리스트, 그리고 비즈니스 인텔리전스 사용자는 데이터를 탐색할 때 인터랙티브 SQL 쿼리를 활용합니다. Spark SQL은 구조적 데이터 처리를 위한 Spark 모듈입니다. 이 모듈은 일명 DataFrames라는 프로그래밍 추상화를 제공하며 분산형 SQL 쿼리 엔진 역할도 할 수 있습니다. 이것을 이용하면 수정되지 않은 하둡(Hadoop) Hive 쿼리를 기존 배포와 데이터에서{...}

Spark Streaming이란 무엇인가요?

Apache Spark Streaming은 Apache Spark 스트리밍 엔진의 이전 세대입니다. Spark Streaming은 더 이상 업데이트되지 않는 레거시 프로젝트입니다. Apache Spark에는 Structured Streaming이라는 새롭고 간편한 스트리밍 엔진이 있습니다. 애플리케이션과 파이프라인 스트리밍을 위해서는 Spark Structured Streaming을 사용해야 합니다. Structured Streaming을 참조{...}

Spark 애플리케이션

Spark 애플리케이션은 driver 프로세스 하나와 일련의 executor 프로세스로 구성됩니다. driver 프로세스는 main() 함수를 실행하고 클러스터 내 노드에 위치하며 세 가지 작업을 담당합니다. 첫째, Spark 애플리케이션 관련 정보를 유지하는 것, 둘째, 사용자의 프로그램이나 입력에 대응하는 것, 셋째는 executor 작업을 분석, 배포, 예약하는 것입니다. driver 프로세스는 매우 핵{...}

Sparklyr

Sparklyr이란 무엇입니까?Sparklyr은 R과 Apache Spark 사이에서 인터페이스를 제공하는 오픈 소스 패키지입니다. 이제 Spark 기능을 최신 R 환경에서도 활용할 수 있습니다. Spark는 분산된 데이터와 상호작용할 수 있으면서도 레이턴시가 짧기 때문입니다. Sparklyr은 인터랙티브 환경에서 대규모 Dataset와 상호작용을 주고받는 데 효과적인 툴입니다. 이렇게 하면 R의 친숙한 툴을 이용해 Spark 데이터를 분석할 {...}

SparkR란 무엇인가요?

SparkR은 Apache Spark에서 R 언어를 사용해 대규모 데이터를 분산 처리할 수 있도록 지원하는 도구입니다.Spark의 다른 언어 바인딩과 동일한 원칙을 적용하며, 환경 설정 후 바로 코드를 작성해 실행할 수 있습니다. 전체 구조는 Python API와 거의 유사하지만, R 고유의 문법을 따른다는 점에서 차이가 있습니다.일반적으로 Python API에서 제공하는 기능은 대부분 SparkR에서도 활용할 수 있습니다.{...}

Sparse Tensor(희소텐서)란 무엇인가요?

Python은 일명 numpy라는 기본 내장 라이브러리를 제공하여 다차원 배열을 조작합니다. pytensor 라이브러리를 개발하려면 기본적으로 이 라이브러리부터 구성하고 사용해야 합니다. Sptensor는 희소 텐서를 나타내는 클래스입니다. 희소 텐서란 대부분의 입력 항목이 0인 Dataset입니다. 대형 대각선 행렬(diagonal matrix)이 대표적인 예입니다. (값이 0인 원소가 많음). 이것은 텐서 개체의 전체 값을 저장하지 않고, {...}

Structured Streaming이란 무엇인가요?

Structured Streaming은 스트림 처리용 고차원 API의 일종으로, Spark 2.2에서는 바로 프로덕션에 적용할 수 있게 되었습니다. Structured Streaming을 사용하면 Spark의 구조적 API를 사용해 배치 모드로 수행하는 것과 같은 연산을 스트리밍 방식으로 실행할 수 있습니다. 이렇게 하면 레이턴시를 줄이고 증분식으로 처리할 수 있게 됩니다. Structured Streaming의 가장 좋은 점은 코드를 사실상 {...}

TensorFlow (텐서 플로우)

지난 2015년 11월, Google에서 머신 러닝용 오픈 소스 프레임워크를 출시하며 이를 TensorFlow라 명명했습니다. 이것은 딥러닝, 신경망을 물론 CPU, GPU와 GPU 클러스터의 일반적인 수리적 연산을 지원합니다. TensorFlow의 가장 큰 장점 중 하나는 개발자, 데이터 사이언티스트와 데이터 엔지니어로 구성된 오픈 소스 커뮤니티가 있어 리포지토리에 기여한다는 점입니다. TensorFlow의 최신 버전 및 릴리스 노트는 Git{...}

Tensorflow Estimator API란 무엇인가요?

Tensorflow Estimator API란 무엇입니까?TensorFlow의 Estimator API는 모델을 직관적으로 설계하고, 교육, 평가, 예측, 배포를 효율적으로 수행할 수 있게 돕는 고수준 추상화 도구입니다. TensorFlow는 아래 이미지와 같이 여러 개의 API 계층으로 구성된 프로그래밍 스택을 제공합니다. estimator는 두 가지 유형이 있어 사전에 만든 Estimator를 선택해도 되고, 아니면 사용자가 직접 {...}

Unified AI Framework(통합 인공지능 프레임워크)

Unified Artificial Intelligence(통합 인공지능 프레임워크), 즉 UAI는 Facebook에서 올해 F8 중에 발표한 개념입니다. 이 개념은 Facebook이 제작하고 아웃소싱한 2가지 딥러닝 프레임워크를 합친 것입니다. 하나는 대규모 컴퓨팅 리소스에 액세스를 보유한 리서치 중점적 PyTorch이고, 다른 하나는 Android와 Raspberry Pi 디바이스에서의 모델 배포에 주력하는 Caffe입니다. Facebook의{...}

Unified Data Analytics Platform

Databricks의 Unified Data Analytics Platform는 데이터 사이언스를 엔지니어링, 비즈니스와 통합하여 혁신의 속도를 높여줍니다. Databricks를 Unified Data Analytics Platform으로 활용하면 아무런 한계 없이 엄청난 규모로 데이터를 신속하게 준비하고 정리할 수 있습니다. 또한 이 플랫폼을 이용하면 각종 인공지능 애플리케이션 전체에 ML 모델을 지속해서 교육하고 배포할 수 있습니다{...}

Unified Data Analytics란 무엇인가요?

Unified Data Analytics는 새로운 솔루션 카테고리입니다. 데이터 처리를 AI 기술과 통합하여 기업에서 AI를 한결 쉽게 완성할 수 있게 지원하여 각자의 AI 이니셔티브 진행 속도를 빠르게 해줍니다. Unified Data Analytics는 기업에서 다양한 사일로형 데이터 스토리지 시스템을 아우르는 데이터 파이프라인을 구축하는 데 도움이 되며 모델 구축을 위해 레이블이 지정된 Dataset를 준비하는 데 유익합니다. 이렇게 하면{...}

거대 언어 모델(LLM)

거대 언어 모델(LLM)이란 무엇인가요? 대규모 언어 모델(LLM)은 서술형 질의 응답부터 채팅, 콘텐츠 요약, 임의에 가까운 명령 실행, 번역, 콘텐츠 및 코드 생성에 이르기까지 다양한 작업에서 성능 및 역량 면에서 이전 모델을 크게 앞서는 새로운 차원의 자연어 처리(NLP) 모델입니다. LLM은 인간 언어의 패턴과 구조를 학습하기 위해 고급 머신 러닝 알고리즘을 사용하여 방대한 데이터 세트에서 학습됩니다. {...}

검색 증강 생성(RAG)이란?

요약RAG(Retrieval Augmented Generation)이 어떻게 대규모 언어 모델(LLM)과 실시간 외부 데이터를 결합하여 더 정확하고 관련성 높은 결과를 만들어내는지 알아보세요.RAG가 고비용의 재학습 없이 환각(hallucination)을 줄이고, 도메인 특화 답변을 제공하는 등 특정 문제들을 어떻게 해결하는지도 확인해보세요.또한 고객 지원, 컴플라이언스, 엔터프라이즈 검색과 같은 산업 분야에서의 실제 활용 사례와 미래 동향을 {...}

공급망 관리(Supply chain Management)

공급망 관리란? 공급망 관리는 제품과 서비스를 효율적이고 효과적으로 생산하여 최종 고객에게 제공하는 것을 목표로 공급망의 운영을 계획, 구현 및 제어하는 프로세스입니다. 공급망 관리는 제품 및 서비스의 소싱, 조달, 생산 및 제공과 관련된 모든 활동의 조정 및 최적화뿐만 아니라 정보 흐름 및 금융 거래 관리를 포함합니다. 공급망 관리의 핵심 요소는 공급업체 관리, 재고 관리, 생산 계획 및 일정, 물류 및 운송 관리, 고객 서비스입니다. 효과적{...}

관계형 데이터베이스(RDBMS)란 무엇인가요? 주요 기능 및 사용 사례

관계형 데이터베이스란 무엇인가요?관계형 데이터베이스는 관계라고 불리는 공유된 열과 행을 통해 서로 연결될 수 있고 테이블 간의 다양한 관계를 보여주는 고유 식별자(키)가 있는 테이블에 데이터를 저장하고 액세스를 제공하는 데이터베이스 유형입니다.이 관계형 모델은 행이 고객, 계정 또는 트랜잭션과 같은 개별 레코드를 나타내는 반면 열은 고객 ID, 계좌 번호 또는 트랜잭션 금액과 같은 해당 레코드의 속성을 나타낸다는 점에서 스프레드시트 모델과 유사{...}

구체화 뷰(Materialized views)

Databricks Delta의 Delta 파이프라인/구체화 뷰 Intro Delta 파이프라인은 데이터 파이프라인 수명 주기를 관리할 수 있도록 일련의 API와 UI를 제공합니다. 이것은 오픈 소스 프레임워크로 데이터 엔지니어링 팀에서 ETL 개발을 간소화하고 데이터 안정성을 개선하며 운영을 확장하는 데 도움이 됩니다. 데이터 변환을 위해 코딩하고 작업을 예약하는 방식이 아니라, 선언적 파이프라인을 구축하여 여러분이 원하는 데이터의 {...}

대체 데이터(Alternative Data)

대체 데이터란 무엇입니까? 대체 데이터(Alternative data)는 남들이 사용하지 않는, 비일반적인 정보 출처를 가리키는 대안적(alternative) 데이터 소스를 사용해 수집한 정보입니다. 대체 데이터를 분석하면 업계의 평범한 데이터 소스가 제공할 수 있는 범위를 벗어난 인사이트를 얻을 수 있습니다. 다만 정확히 무엇을 대체 데이터로 간주해야 하는지는 업종마다 다릅니다. 이 개념의 정의는 우리 회사나 경쟁사가 이미 사용 중인 기존 데{...}

데이터 가상화: 여러 데이터 소스에 대한 통합된 실시간 액세스

데이터 가상화란 무엇인가요?데이터 가상화는 조직이 데이터를 물리적으로 이동하거나 복사하지 않고도 여러 데이터 소스의 정보를 통합된 뷰로 생성할 수 있게 해주는 데이터 통합 방법입니다. 핵심 데이터 가상화 기술인 이 데이터 관리 접근 방식은 데이터 소비자가 단일 가상 레이어를 통해 이기종 시스템의 데이터에 액세스할 수 있도록 합니다. 중앙 리포지토리로 데이터를 추출하는 대신, 데이터 가상화는 데이터 소비자와 소스 시스템 사이에 추상 레이어를 배치{...}

데이터 거버넌스 (Data Governance)

데이터 거버넌스란 무엇인가요? 데이터 거버넌스는 데이터가 가치를 창출하는지 확인하는 감독 행위이며, 비즈니스 전략을 지원하는 활동입니다. 데이터 거버넌스는 단순한 도구나 프로세스가 아닙니다. 사람, 프로세스, 기술, 데이터와 관련하여 비즈니스 목표와 목적을 지원하는 문화에 초점을 맞추고, 프레임워크를 통해 비즈니스 전략에 데이터 관련 요구 사항을 일치시킵니다. 데이터 거버넌스는 비즈니스에 어떤 장점을 제공할까{...}

데이터 공유 (Data Sharing)

데이터 공유란 무엇인가요? 데이터 공유 (Data sharing)는 하나 또는 여러 명의 고객에게 같은 데이터를 제공할 수 있는 기능입니다. 요즘 들어서는 어느 회사에서나 지속적으로 늘어나는 방대한 데이터 자체가 전략적 자산이 되었습니다. 데이터 공유는 - 사업 부서 내에서 뿐만 아니라 외부 소스에서 데이터를 소비하는 것 - 새로운 비즈니스 기회를 가능하게 하는 기술입니다. 데이터를 공유하면 파트너와 협업하고, 새로운 파트너십을 구축하고, 데이{...}

데이터 관리(Data Management)

데이터 관리란 무엇입니까? 데이터 관리의 정의부터 살펴보겠습니다. 데이터 관리는 조직의 데이터를 수명 주기 전반에 걸쳐 구성, 처리, 저장, 보호, 분석하는 작업입니다. 효율적인 데이터 처리를 통해 모든 정보의 안전성과 신뢰성을 확보할 수 있습니다. 올바른 데이터 관리를 통해 효율성을 개선하고 비즈니스 성과에 대해 정확하게 파악함으로써 전략적 의사 결정을 내리고 법적 요건을 준수할 수 있습니다. 데이터 관리는 데이터 거버넌스 전략에 따라 데이터{...}

데이터 레이크하우스

데이터 레이크하우스란 무엇입니까? 데이터 레이크하우스는 데이터 레이크가 가지고 있는 유연성, 비용 효율성, 그리고 대용량 지원 기능에 더해, 데이터 웨어하우스의 데이터 관리 기능과 ACID 트랜잭션을 통합한 새로운 형태의 오픈 데이터 관리 아키텍처로, 모든 데이터를 대상으로 비즈니스 인텔리전스(BI)와 머신 러닝(ML)을 지원합니다. {...}

데이터 리니지(Data Lineage)란 무엇인가요?

데이터 리니지란 무엇인가요?데이터 리니지는 데이터와 AI가 출처부터 사용까지, 시간의 흐름에 따라 어떻게 이동하고 변하는지를 기록하고 추적하며 시각화하는 과정입니다. 효과적인 데이터 리니지는 데이터 팀에게 데이터가 어떻게 변환되고 조직의 데이터 환경 전반에서 어떻게 흐르는지 처음부터 끝까지 한눈에 보여 줍니다.데이터 리니지는 데이터의 수명 주기에서 관련된 정보와 이벤트를 기록하며, 여기에는 다음이 포함됩니다:데이터 원천이를 만들 때 사용된 다른{...}

데이터 리터러시

데이터 리터러시란 무엇인가요?데이터 리터러시는 데이터를 효과적으로 읽고, 다루고, 분석하고, 소통하는 능력입니다. 데이터 리터러시는 데이터가 무엇을 의미하고 어떻게 생성되며 어떻게 사용하는지 이해하여 올바른 질문을 하고, 데이터를 정확하게 해석하며, 정보에 입각한 증거 기반의 의사결정을 내릴 수 있도록 하는 것입니다.데이터 리터러시는 사고 능력입니다. 데이터 리터러시란 데이터 사이언티스트가 되거나 머신 러닝 모델을 구축하거나 복잡한 SQL 또는{...}

데이터 마이그레이션 (Data Migration)

비즈니스에서 데이터는 그 어느 때보다 중요해졌습니다. 데이터가 효과적으로 활용되도록 하려면 최상의 데이터 플랫폼을 사용하는 것이 중요하며, 이를 위해 데이터 마이그레이션이 필요할 수 있습니다. 데이터 마이그레이션과 성공적인 데이터 마이그레이션 방법에 대해 질문이 있으시다면, 저희가 답을 드리겠습니다. 데이터 마이그레이션이란 무엇인가요? 데이터 마이그레이션은 한 플랫폼에서 다른 플랫폼으로 디지털 정보를 이동하는 과정입니다. 그 대상에는 스토리지 {...}

데이터 마이닝이란 무엇인가요?

데이터 마이닝 소개데이터 마이닝은 대용량 데이터에서 의미 있는 패턴, 관계, 인사이트를 발견하는 과정입니다. 통계, 머신러닝, 데이터 관리 기술을 활용하여 간단한 쿼리나 보고만으로는 즉시 파악하기 어려운 신호를 찾아냅니다. 조직이 애플리케이션, 센서, 거래, 디지털 상호작용 등 그 어느 때보다 더 많은 데이터를 수집하는 시대에 데이터 마이닝은 원시 정보를 더 나은 의사결정을 지원하는 지식으로 전환하는 구조화된 방법을 제공합니다.높은 수준에서 데{...}

데이터 마켓플레이스

데이터 마켓플레이스 또는 데이터 마켓이란? 데이터 마켓플레이스 또는 데이터 시장은 데이터 공유 및 협업을 지원하는 온라인 상점으로, 데이터 공급지와 데이터 소비자를 연결하여 참가자에게 안전한 환경에서 데이터 및 관련 서비스를 사고 팔 수 있는 기회를 제공하므로 일관성 있는 고품질의 데이터 자산을 제공할 수 있습니다. 기업은 마켓플레이스를 사용하여 데이터세트를 개선하거나, 데이터로 수익을 창출하거나, 데이터 제품 및 서비스를 제공할 수 있습니다.{...}

데이터 마트(Data Mart)

데이터 마트란 무엇입니까? 데이터 마트는 하나의 데이터 팀, 커뮤니티 또는 사업부(예: 마케팅 또는 엔지니어링 부서)에 따른 특정 요구 사항을 충족하도록 설계된 테이블 세트가 포함된 큐레이션 데이터베이스입니다. 빅 데이터 시대가 도래해 데이터 분석의 중요성이 점점 더 커져가고 있는 지금, 정보를 효율적으로 관리하고 활용하는 데 꼭 필요합니다. 보통, 데이터 웨어하우스보다 작고 집중적이며 일반적으로 조직의 대규모 엔터프라이즈 데이터 웨어하우스의 {...}

데이터 메시(Data Mesh)

데이터는 기업에게 중요하며, 혁신과 발전의 원료로 작용합니다. 조직이 데이터 및 의사 결정 중심으로 변화하면서 그 중요성이 더욱 커졌고, 이에 따라 조직이 대응해야 할 주요 과제가 생겼습니다. 레거시 데이터 레이크와 데이터 웨어하우스는 이러한 문제를 야기하며, 데이터 사일로를 형성하고 가시성을 낮추며, 데이터 처리 속도를 저하시켜 복잡성을 증가시킵니다. 이러한 장벽과 병목 현상은 협업을 방해하고 가치 있는 데이터 자원을 활용하지 못하게 합니다.{...}

데이터 모델링(Data Modeling)이란 무엇인가요?

데이터 모델링은 정보를 효율적으로 저장, 검색, 분석할 수 있도록 데이터 구조를 설계하고 구성하는 핵심 과정입니다. 이는 모든 데이터 웨어하우스 시스템의 아키텍처적 기반이며, 효과적인 데이터 모델링은 조직이 수집하는 다양한 데이터 유형을 분석하고 정의하며, 그 데이터 포인트와 구조 간의 연결 관계를 보여줌으로써 데이터의 잠재력을 최대한 발휘하도록 돕습니다.데이터 모델링은 데이터가 어떻게 저장되고, 구성되고, 접근되는지를 보여주는 텍스트, 기호,{...}

데이터 보안(Data Security)

오늘날과 같이 고도로 연결된 세상에서 사이버 보안 위협과 내부자 위험은 꾸준히 제기되어 온 우려 사항입니다. 조직은 보유하고 있는 데이터 유형에 대한 가시성을 확보하고, 데이터의 무단 사용을 방지하고, 해당 데이터와 관련된 위험을 식별 및 완화해야 합니다. 다음 섹션에서는 데이터 보안이 필수적인 이유와 일반적인 데이터 보안 위험 그리고 무단 액세스, 도난, 손상, 포이즈닝 또는 실수로 인한 손실로부터 조직을 보호하는 데 도움이 되는 데이터 보안{...}

데이터 볼트 (Data Vault)

데이터 볼트란 무엇입니까?데이터 볼트는 엔터프라이즈급 분석을 위한 데이터 웨어하우스를 구축하는 데 사용되는 데이터 모델링 설계 패턴입니다. 데이터 볼트는 허브, 링크, 위성, 이렇게 세 가지 유형의 엔터티가 있습니다.허브는 핵심 비즈니스 개념을 대표하며, 링크는 허브 간의 관계를 대표하고, 위성은 허브와 허브 간 관계에 대한 정보를 저장합니다.데이터 볼트는 레이크하우스 패러다임을 채택하고 있는 조직에게 매우 적합한 데이터 모델입니다.데이터 볼트{...}

데이터 분류란 무엇인가?

데이터 분류는 데이터의 민감도, 가치 및 조직에 대한 위험을 기반으로 데이터를 명확하게 정의된 범주로 구성하는 프로세스입니다. 이러한 범주는 공개, 내부, 기밀 또는 제한과 같은 등급으로 표현되는 경우가 많으며, 데이터에 액세스할 수 있는 사람, 보호 방법, 저장 또는 공유할 수 있는 위치 등 데이터 수명 주기 전반에 걸쳐 데이터 처리 방법을 결정합니다.데이터는 조직의 가장 가치 있는 자산 중 하나이지만 모든 데이터가 동일한 수준의 위험, 민감{...}

데이터 분석 플랫폼(Data Analysis Platform)

데이터 분석 플랫폼이란 무엇입니까? 데이터 분석 플랫폼은 용량이 크고 복잡한 동적 데이터를 대상으로 분석을 수행해야 하는 서비스와 기술로 구성된 에코시스템입니다. 이것을 통해 회사에 속한 다양한 출처로부터 얻은 데이터를 검색, 조합, 데이터와 상호작용을 주고받기도 하고 탐색, 표시할 수 있습니다. 종합적인 데이터 분석 플랫폼에는 다양한 기능을 내장한 여러 가지 툴이 포함되어 있습니다. 예측 분석과 데이터 시각화부터 로케이션 인텔리전스(Locat{...}

데이터 수집: 방법, 도구, 모범 사례

데이터 수집이란 무엇인가요?데이터 수집은 나중에 의사 결정, 인사이트, 데이터 기반 시스템 구동에 사용될 정보를 다양한 소스에서 체계적으로 수집하고 측정하는 것입니다.데이터 수집은 데이터 수명 주기의 첫 번째 단계입니다. 조직을 위해 수집되어 처리, 저장, 분석되기 전의 모든 원시 정보를 나타냅니다. 데이터 인제스천과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 수집은 수집되는 원시 정보인 '무엇'을 의미하는 반면, 데이터 인제스천은 처리{...}

데이터 스토리텔링이란 무엇인가요?

{...}

데이터 스트리밍(Data Streaming) 소개

지난 몇 년 동안, 실시간 데이터의 필요성이 기하급수적으로 증가했습니다. 기업들은 비즈니스 성장을 촉진하기 위해 데이터 스트림을 활용하여 실시간 분석 및 머신 러닝을 제공하는 애플리케이션과 플랫폼을 점점 더 많이 구축하고 있습니다. 리더들은 데이터를 지속적으로 수집, 처리 및 분석함으로써 즉각적인 통찰력을 얻고, 더 빠른 의사 결정을 가능하게 하며, 보다 정확한 예측을 할 수 있습니다. 기업들은 운영 시스템의 비즈니스 거래 및 잠재{...}

데이터 시각화란 무엇인가요?

데이터 시각화는 가공되지 않은 데이터를 패턴과 관계를 더 쉽게 해석할 수 있는 시각적 형식으로 변환하는 프로세스입니다. 가공되지 않은 데이터를 차트, 플롯 또는 지도와 같은 형식으로 변환하면 추상적인 정보가 인간이 자연스럽게 정보를 처리하고 소비하는 방식과 일치하는 공간 구조로 변환됩니다.이 분야의 선구자는 통계학자 에드워드 터프티(Edward Tufte)로, 그는 데이터가 풍부한 시각화는 사용 가능한 모든 데이터를 하나의 형식으로 표현해야 한{...}

데이터 아키텍처(Data Architecture)

비즈니스 환경은 데이터와 AI를 경쟁 우위의 핵심 요소로 만드는 방향으로 발전하였습니다. 데이터는 모든 회사에게 중요한 자산이 되었으며, 데이터 관리는 조직의 전반적인 전략을 지원하기 위해 신중하게 설계되어야 합니다. 데이터 아키텍처는 데이터 관리의 실질적인 운영 방식을 결정하는 프레임워크로, 데이터 및 AI 시대에서 기업의 성장과 성공에 중요한 영향을 미칩니다. 데이터 아키텍처란 무엇인가요? 데이터 아키텍처는 조직 내에서 데이터를 관리하기 위{...}

데이터 엔지니어링이란?

데이터 엔지니어링은 분석, 보고, 머신러닝, 의사결정을 위해 데이터를 수집, 저장, 변환, 전달하는 시스템을 설계, 구축, 유지관리하는 활동입니다. 데이터가 제때에 양호한 상태로 제공되도록 하는 것입니다.데이터 엔지니어링은 데이터를 신뢰할 수 있게 만들고, 더 빠르고 나은 의사 결정을 가능하게 하는 파이프라인을 구축하며, 조직이 성장함에 따라 데이터가 확장될 수 있도록 하므로 조직에 매우 중요합니다. AI, 머신러닝, 고급 분석은 잘 설계된 데{...}

데이터 옵저버빌리티란 무엇인가요?

데이터 옵저버빌리티(Data Observability)는 조직이 비즈니스에 영향을 미치기 전에 데이터 문제를 감지, 진단 및 예방할 수 있도록 수집 파이프라인에서 스토리지 계층, 다운스트림 분석에 이르기까지 데이터 시스템 전반의 상태, 품질, 안정성 및 성능을 지속적으로 모니터링하는 관행 및 관련 프로세스입니다. 이는 자동화된 모니터링, 이상 탐지, 근본 원인 분석, 데이터 리니지 추적과 같은 활동을 통해 라이프사이클 전반에 걸쳐 데이터 상태를{...}

데이터 웨어하우스(Data Warehouse)

데이터 웨어하우스란 무엇입니까? 데이터 웨어하우스는 여러 소스의 현재 및 과거 데이터를 비즈니스에서 쉽게 인사이트와 보고서를 얻을 수 있도록 저장하는 데이터 관리 시스템입니다. 일반적으로 데이터 웨어하우스는 비즈니스 인텔리전스(BI), 보고 및 데이터 분석에 사용합니다. 데이터 웨어하우스를 사용하면 운영 시스템(예: POS 시스템, 재고 관리 시스템, 마케팅/영업 데이터베이스)에서 업로드된 비즈니스 데이터를 빠르고 쉽게 분석할 수 있습니다. 데{...}

데이터 인제스트 (Data Ingestion)란 무엇인가요?

데이터 인제스트(data ingestion)는 데이터 엔지니어링 라이프사이클의 첫 단계로, 데이터베이스, SaaS 애플리케이션, 파일 소스, API, IoT 기기 등 다양한 출처의 데이터를 데이터 레이크, 데이터 웨어하우스, 레이크하우스 같은 중앙 저장소로 모으는 과정을 말합니다. 이를 통해 조직은 데이터를 정제하고 통합하여 분석과 AI에 활용함으로써 데이터 기반 의사결정을 내릴 수 있습니다.전통적으로 데이터 인제스트는 맞춤형 스크립트, Apa{...}

데이터 인텔리전스(Data Intelligence)

데이터 인텔리전스는 인공지능(AI) 시스템을 사용하여 조직의 데이터를 학습, 이해 및 추론하는 과정을 말하며, 이를 통해 맞춤형 AI 애플리케이션을 개발하고, 조직 전반에 걸쳐 데이터 접근을 더욱 용이하게 만들 수 있습니다. {...}

데이터 자동화 (Data Automation)란 무엇인가요?

데이터의 양, 데이터 소스 및 데이터 유형이 증가함에 따라 조직에서는 해당 데이터를 변환하고 비즈니스 인사이트를 도출하는 데 도움이 되는 도구와 전략에 대한 필요성이 점점 더 커지고 있습니다. 이를 수행하기 전에 진행해야 한 중요한 단계는 정리되지 않은 원시 데이터를 고품질의 정제된 데이터로 처리하는 것입니다. 다음 섹션에서는 데이터 자동화와 사용 방법을 다루고 조직 내에서 데이터 자동화 사례를 구축하기 위한 모범 사례를 살펴봅니다. 데이터 자{...}

데이터 처리 (data processing)

데이터 처리란 무엇인가요?데이터 처리는 가공되지 않은 데이터를 의미 있고 실행 가능한 인사이트로 처음부터 끝까지 변환하는 과정을 말합니다. 조직은 정형 및 비정형 데이터를 실시간(또는 대규모로) 처리해 시의적절하고 정확한 인사이트를 얻고 경쟁력을 유지합니다.데이터 처리는 기본적으로 원시 데이터를 수집해 정제하고 변환한 다음, 저장할 수 있도록 준비하는 일입니다. 이 사이클은 비즈니스 인텔리전스와 자동화부터 과학 연구와 머신러닝까지 모두 지원합니{...}

데이터 카탈로그

데이터 카탈로그란 무엇인가요?데이터 카탈로그는 조직의 데이터 자산을 위한 궁극적인 '보물 지도' 역할을 하는 중앙 집중식 인벤토리 및 관리 시스템입니다. 데이터 전문가와 비즈니스 사용자가 전체 에코시스템에서 데이터를 검색하고, 이해하고, 효과적으로 활용할 수 있도록 지원하는 포괄적이고 검색 가능한 메타데이터 리포지토리를 제공합니다. 데이터세트, 데이터 구조, 계보, 품질 및 사용 패턴에 대한 정보를 정리하여 데이터에 더 쉽게 액세스하고 신뢰할 {...}

데이터 통합

데이터 통합이란 무엇인가요?데이터 통합은 여러 시스템의 데이터를 결합하여 통합되고 신뢰할 수 있는 뷰로 만드는 프로세스입니다. 데이터베이스, 애플리케이션, 이벤트 스트림, 파일, API, 타사 플랫폼의 정보를 통합하여 조직이 데이터를 단편적으로 분리된 상태가 아니라 전체적으로 다룰 수 있도록 합니다. 데이터 볼륨이 증가하고 시스템이 더욱 파편화됨에 따라 데이터 통합은 분석, AI 및 의사 결정을 위한 기본 기능이 되었습니다.대부분의 조직은 필수{...}

데이터 파이프라인(Data Pipeline)

데이터 파이프라인이란 무엇인가요? 데이터 파이프라인은 데이터가 시스템 사이를 흐르는 방식을 포괄합니다. 특정 순서로 수행되는 일련의 단계로 구성되며 한 단계의 출력이 다음 단계의 입력 역할을 합니다. 일반적으로 소스, 데이터 처리 단계, 마지막으로 대상 또는 "싱크"의 세 가지 핵심 요소가 있습니다. 전송 프로세스 중에 데이터를 수정할 수 있으며, 일부 파이프라인은 소스 시스템과 대상이 동일한 데이터 변환에 간단히 사용될 수 있습니다. 최근 몇{...}

데이터 품질(Data Quality)의 이해

이제 기업들은 복잡한 데이터 세트를 활용하여 의사결정을 내리는데 있어 이전보다 더욱 의존하고 있습니다. 이 데이터가 신뢰할 수 있고 정확하며 관련성이 있어야 기업들이 효과적이고 전략적인 결정을 내릴 수 있습니다. 이것은 산업이 AI 기능을 사용하는 것에 적응함에 따라 더욱 중요해집니다. AI와 분석은 명확하고 높은 수준의 품질을 가진 데이터에 의존하여 정확한 예측과 결정을 내립니다. 신뢰할 수 없는 데이터는 AI 알고리즘의 신뢰성을 떨어뜨리지만{...}

데이터 프레임(DataFrames)

DataFrame이란 무엇입니까? 데이터프레임(DataFrame)이란 데이터를 행과 열로 구성된 2차원 표(스프레드시트와 비슷)로 정리하는 데이터 구조입니다. DataFrame은 최신 데이터 분석에서 가장 보편적으로 쓰이는 데이터 구조 중 하나입니다. 유연하고 직관적인 방식으로 데이터를 저장하고 작업이 가능하기 때문입니다. 각 데이터프레이임에는 스키마라고 하는 블루프린트가 있어서, 각 열의 이름과 데이터 유형을 정의합니다. Spark DataF{...}

데이터 현대화: 향상된 효율성과 확장성을 위한 레거시 인프라 전환

데이터 현대화의 필요성데이터 현대화는 민첩성, 혁신, 데이터 기반 의사 결정을 가능하게 하기 위해 조직의 데이터 인프라, 관행 및 도구를 포괄적으로 전환하는 것입니다. 이는 단일 기술 업그레이드나 일회성 프로젝트가 아닙니다. 대신, 데이터 현대화는 조직이 변화에 더 빠르게 대응하고 대규모 데이터에서 가치를 추출할 수 있도록 데이터가 수집, 저장, 관리, 분석되는 방식을 재고합니다.조직이 "데이터 현대화가 무슨 뜻인가요?"라고 물을 때, 그 대답{...}

데이터 흐름(Data Flow)

데이터 흐름이란 무엇인가요? 데이터 흐름은 시스템 아키텍처를 통해 한 프로세스나 구성 요소에서 다른 프로세스나 구성 요소로 데이터가 이동하는 것을 의미합니다. 이는 컴퓨터 시스템, 애플리케이션 또는 네트워크 내에서 데이터가 입력, 처리, 저장 및 출력되는 방식을 설명합니다. 데이터 흐름은 모든 IT 시스템의 효율성, 신뢰성, 보안에 직접적인 영향을 미치므로, 출력을 최적화하기 위해 시스템을 적절히 구성하는 것이 중요합니다. 데이터 흐름 시스템 {...}

데이터베이스 스키마: 구조, 설계 및 구현을 위한 종합 가이드

소개: 현대 데이터 관리에서의 데이터베이스 스키마 이해데이터베이스 스키마는 데이터베이스가 어떻게 구성되고 구조화되는지에 대한 청사진 역할을 합니다. 데이터베이스 스키마는 데이터베이스 테이블의 레이아웃, 포함된 필드, 테이블 간의 관계를 정의하여 일관되고 예측 가능한 방식으로 데이터에 액세스할 수 있도록 합니다. 데이터 시스템이 복잡해질수록 데이터베이스 스키마는 더욱 중요해집니다. 잘 설계된 데이터베이스 스키마를 사용하면 팀이 운영, 분석, 분산{...}

데이터세트(DataSet)

데이터세트란? 데이터세트는 분석 또는 처리를 위해 함께 구성되고 저장된 데이터의 구조화된 모음입니다. 데이터세트의 데이터는 일반적으로 어떤 식으로든 관련되어 있으며 단일 소스에서 가져오거나 단일 프로젝트용으로 사용됩니다. 예를 들어, 데이터세트에는 비즈니스 데이터(매출 통계, 고객 연락처 정보, 거래 등) 모음이 포함될 수 있습니다. 데이터세트에는 숫자 값부터 텍스트, 이미지, 오디오 녹음에 이르기까지 다양한 유형의 데이터가 포함될 수 있습니다{...}

디지털 트윈(Digital twin)

디지털 트윈이란 무엇인가요?기존에는 디지털 트윈을 ""물리적 개체를 정확히 반영하도록 설계된 가상 모델""로 정의했습니다. – IBM[KVK4] 디지털 트윈은 분리 또는 지속적인 제조 프로세스를 위해 다양한 IoT 센서를 통해 시스템 및 프로세스 상태 데이터(운영 기술 데이터(OT))를 수집하고, 엔터프라이즈 데이터(정보 기술(IT))를 수집하여 가상 모델을 형성합니다. 이 가상 모델은 그 다음 시뮬레이션을 실행하고 성능 문제를 조사하여 가능한{...}

딥러닝 (Deep Learning)

딥러닝이란 무엇입니까? 딥러닝은 머신 러닝의 하위 집합으로, 특히 사람의 뇌 구조와 기능에서 영감을 얻은, 알고리즘을 포함한 대량의 데이터를 다룹니다. 그래서 딥러닝 모델을 종종 심층 신경망이라고 부르는 것입니다. 이는 일반적인 작업별 알고리즘이 아니라 학습 데이터 표현을 기반으로 한 넓은 의미의 머신 러닝 방식에 속합니다. 딥러닝의 작용 원리는 무엇입니까? 딥러닝에서는 컴퓨터 모델이 이미지, 텍스트나 소리에서 직접 분류 작업을 수행하는 법을 {...}

람다 아키텍처 (Lambda Architecture)

Lambda 아키텍처란 무엇입니까? Lambda 아키텍처는 엄청난 대량의 데이터(즉 “빅데이터”)를 처리하는 방식의 일종으로, 하이브리드 방식으로 일괄 처리나 스트림 처리 방식을 이용할 수 있게 해줍니다. Lambda 아키텍처는 임의 함수 연산 문제를 해결하는 데 쓰입니다. Lambda 아키텍처 자체는 3개의 계층으로 이루어져 있습니다. {...}

리테일용 레이크하우스(Lakehouse for Retail)

리테일용 레이크하우스란 무엇인가요? 리테일용 레이크하우스은 Databricks에서 첫 번째로 출시한 업종별 레이크하우스입니다. 솔루션 액셀러레이터, 데이터 공유 기능과 파트너 에코시스템을 통해 소매업체가 빨리 운영을 정상화하도록 돕습니다. 리테일용 레이크하우스는 기술, 파트너, 도구, 산업 이니셔티브의 정점으로서 데이터 + AI를 중심으로 협업을 강화합니다. 리테일용 레이크하우스는 4가지로 구성됩니다. 통합 데이터 + AI 플랫폼:&n{...}

맞춤형 금융(Personalized Banking)

맞춤형 금융이란 무엇입니까?금융 상품과 서비스가 점차 표준화되는 가운데, 미디어와 리테일 산업처럼 개인화된 경험을 제공하는 움직임이 확산되며 소비자의 기대도 높아지고 있습니다. 이러한 환경에서 은행이 경쟁력을 유지하려면 지리정보, 자연어 처리(NLP)와 같은 고급 분석을 기반으로 개인화된 인사이트, 추천, 재무 목표 설정, 보고 기능 등을 통해 기존 뱅킹을 뛰어넘는 몰입도 높은 뱅킹 경험을 제공해야 합니다. 오픈 파이낸스라고도 하는 맞춤형 금융{...}

맵리듀스(MapReduce)

MapReduce의 역사MapReduce는 2004년 Google에서 Jeffery Dean과 Sanjay Ghemawat가 개발한 분산 처리 프레임워크입니다. 이들은 「MAPREDUCE: SIMPLIFIED DATA PROCESSING ON LARGE CLUSTERS」라는 논문을 통해 MapReduce를 소개했으며, 함수형 프로그래밍에서 흔히 사용되는 map과 reduce 함수 개념에서 영감을 받았습니다.당시 Google의 독자적인 MapRe{...}

머신 러닝 모델(Machine Learning Model)

머신 러닝 모델이란 무엇입니까? 머신 러닝 모델이란 이전에 접한 적 없는 데이터 세트에서 패턴을 찾거나 이를 근거로 결정을 내릴 수 있는 프로그램입니다. 예를 들어 자연어 처리의 경우, 머신 러닝 모델은 파싱을 통해 이전에 접한 적 없는 문장이나 단어 조합의 배후 의도를 올바로 인식할 수 있습니다. 이미지 인식의 경우, 머신 러닝 모델이 자동차나 개 등 사물을 인식하도록 교육할 수 있습니다. 머신 러닝 모델은 대규모 데이터 세트로 '교육'하면 {...}

머신 러닝 파이프라인(ML Pipeline)

머신 러닝 파이프라인이란 무엇인가요? 머신 러닝 파이프라인이란 무엇인가요? 일반적으로 머신 러닝 알고리즘을 실행할 때는 전처리, 기능 추출, 적합한 모델 찾기(model fitting) 검증 단계로 구성된 시퀀스를 거쳐야 합니다. 예를 들어 텍스트 문서를 분류하는 경우, 텍스트 조각화와 정리, 특징 추출, 교차 검증을 통한 분류 모델 교육 등의 작업을 거치게 됩니다. 각 단계에 사용할 수 있는 라이브러리는 많지만, 단편적인 정보를 연결해 결론을{...}

머신러닝 라이브러리(MLlib)

Apache Spark의 머신 러닝 라이브러리(Machine Learning Library, MLlib)는 단순성, 확장성, 다른 툴과의 통합을 염두에 두고 고안하였습니다. 데이터 사이언티스트는 Spark의 확장성, 언어 호환성과 속도를 활용하여 데이터 문제점과 모델에만 집중할 수 있습니다. 즉 분산형 데이터를 둘러싼 복잡한 문제(인프라, 구성 등)를 해결하는 데 시간을 뺏기지 않아도 됩니다. MLlib은 Spark 기반으로 구축된 확장할 수 {...}

머신러닝과 딥러닝의 차이점은 무엇인가요?

기초적인 차이점과 각각이 AI 내에서 어디에 적합한지 알아보세요.AI, ML, DL 계층 구조 이해하기더 넓은 인공지능 (AI)의 세계에서 머신러닝과 딥러닝의 개념은 자주 혼동됩니다. AI는 인간과 같은 의사 결정이 필요한 작업을 수행하는 지능형 시스템을 구축하는 광범위한 분야입니다. Machine learning(ML)은 AI의 한 유형으로, 시스템이 모든 규칙을 명시적으로 프로그래밍하지 않아도 과거 데이터를 받아들여 패턴을 학습하고 의사 결{...}

머신러닝을 위한 피처 플랫폼(Feature Flatform)이란 무엇인가요?

2년 전까지만 해도 거대 기술 기업만이 머신러닝 시스템에 전적으로 의존하는 제품을 구축할 수 있는 리소스와 전문성을 갖추고 있었습니다. 광고 경매를 지원하는 Google, 콘텐츠를 추천하는 TikTok, 동적으로 가격을 조정하는 Uber를 생각해 보세요. 가장 중요한 애플리케이션을 머신러닝으로 구동하기 위해 이 팀들은 머신러닝 시스템 배포의 고유한 요구사항 을 충족하는 맞춤형 인프라를 구축했습니다.몇 년이 지난 지금, 프로덕션에서 머신러닝을 대{...}

메달리온 아키텍처(Medallion Architecture)

Medallion 아키텍처란 무엇입니까? 메달리온 아키텍처는 레이크하우스에 논리적으로 데이터를 정리하는 데 사용하는 데이터 설계 패턴입니다. 이 아키텍처의 목표는 데이터가 아키텍처의 각 레이어를 통과하는 동안(브론즈 ⇒ 실버 ⇒ 골드 레이어 테이블) 데이터의 구조와 품질을 증분적, 점진적으로 개선하는 것입니다. 메달리온 아키텍처는 "멀티 홉" 아키텍처라고 부르기도 합니다. {...}

모델 리스크 관리(Model Risk Management)란 무엇인가요?

모델 리스크 관리란 잘못된 모델이나 잘못 사용된 모델을 근거로 한 의사 결정으로 인한 잠재적인 나쁜 결과에서 발생하는 리스크를 감독 관리하는 것을 말합니다.모델 리스크 관리의 목표는 모델 리스크를 파악, 계측하여 완화할 기법과 관행을 동원하는 데 있습니다. 예를 들어 모델 오류나 잘못된 모델 사용 가능성을 알아내는 것입니다. 금융 서비스의 경우, 모델 리스크는 정확도가 충분하지 않은 모델을 사용해 의사 결정을 내려 발생하는 손실 위험입니다. 이{...}

모델 컨텍스트 프로토콜(MCP)이란? AI 통합을 위한 실용 가이드

소개: 모델 컨텍스트 프로토콜 이해하기모델 컨텍스트 프로토콜(MCP)은 AI 애플리케이션이 외부 데이터 소스, 도구, 시스템과 원활하게 연결되도록 하는 공개 표준입니다. 모델 컨텍스트 프로토콜을 AI 시스템용 USB-C 포트라고 생각하면 됩니다. USB-C 포트가 기기가 컴퓨터에 연결되는 방식을 표준화하는 것처럼 MCP는 AI 에이전트가 데이터베이스, APIs, 파일 시스템, 지식 베이스와 같은 외부 리소스에 액세스하는 방식을 표준화합니다.컨텍{...}

밀집 텐서(Dense Tensor)

밀집 텐서는 인접한 순차적 메모리 블록에 값을 저장하는데, 이곳에 모든 값이 표시됩니다. 텐서, 즉 다차원 어레이는 매우 다양한 다차원 데이터 분석 애플리케이션에서 사용됩니다. 텐서 연산을 수행할 줄 아는 소프트웨어 제품은 많습니다. 예를 들어 MATLAB 스위트의 경우, 다양한 오픈 소스 타사 툴박스로 보강되기까지 했습니다. MATLAB 단독으로 다양한 요소 관련 이진수 밀집 텐서 연산을 지원할 수 있습니다. 밀집(dense)계층은 완전히 연{...}

베이지안 신경망

베이지안 신경망이란 무엇입니까? 베이지안 신경망(Bayesian Neural Networks, BNN)은 과적합(overfitting)을 제어하기 위해 사후 추론을 사용해 표준 네트워크를 연장한 것을 가리킵니다. 넓은 의미에서 보면 베이지안 방식은 통계적인 방법론을 사용해 모델 매개변수(신경망의 가중치와 편향)를 비롯한 모든 것에 확률 분포가 수반된다고 볼 수 있습니다. 프로그래밍 언어에서 특정 값을 취할 수 있는 변수는 해당 변수에 액세스할 {...}

벡터 데이터베이스(Vector Database)란 무엇인가요?

벡터 데이터베이스란 무엇인가요? 벡터 데이터베이스는 고차원 벡터로 데이터를 저장하고 관리하기 위해 설계된 특수한 데이터베이스입니다. 이 용어는 벡터에서 유래되었는데, 벡터는 데이터에 포함된 특징이나 속성의 수학적 표현입니다. 행과 열로 구성된 구조화된 데이터를 처리하는데 적합한 전통적인 데이터베이스와 달리, 벡터 데이터베이스 구조는 고정된 차원 수를 가진 벡터 표현으로 정보를 배열하고 이를 유사성에 따라 그룹화합니다. 벡터 데이터베이스 내의 각{...}

변경 데이터 캡처란 무엇인가요?

데이터 변경 캡처란 무엇인가요?변경 데이터 캡처(CDC)는 삽입, 업데이트, 삭제 등 데이터 세트에 대한 행 수준 변경 사항을 식별하고 기록하는 데이터 통합 기술입니다. CDC는 전체 테이블을 반복적으로 추출하는 대신 수정된 레코드만 캡처하여 다운스트림 시스템에 적용합니다. 이 증분식 접근 방식을 사용하면 전체 refresh에 드는 비용이나 지연 없이 분석 플랫폼, 운영 애플리케이션, 머신러닝 파이프라인이 최신 정보와 일치된 상태를 유지할 수 {...}

복합 AI 시스템(Compound AI System)

복합 AI 시스템이란 무엇인가요?Berkeley AI 연구(BAIR) 블로그의 정의에 따르면, 복합 AI 시스템이란 상호 작용하는 여러 구성 요소를 결합하여 AI 작업을 처리하는 시스템입니다. 이러한 구성 요소에는 모델, 검색 또는 외부 도구에 대한 다중 호출이 포함될 수 있습니다. 예를 들어, 검색 증강 생성(RAG) 애플리케이션은 모델과 데이터 검색 시스템을 결합하므로 복합 AI 시스템에 해당합니다. 복합 AI 시스템은 다양한 AI 모델, {...}

복합 이벤트 처리(CEP)

복합 이벤트 처리(CEP)란 무엇입니까?복합 이벤트 처리(Complex event processing, CEP)는 다른 말로 이벤트, 스트림 또는 이벤트 스트림 처리라 하며 기술을 사용해 데이터를 쿼리한 다음 데이터베이스 내에 저장하거나, 경우에 따라서는 애초에 전혀 저장하지 않고 쿼리하는 것을 말합니다. 복합 이벤트 처리는 구성 툴의 일종으로, 대량의 서로 다른 정보를 집계하며 실시간으로 여러 이벤트 사이의 인과 관계를 식별 및 분석해줍니다.{...}

비즈니스 인텔리전스 (BI, Business Intelligence)

비즈니스 인텔리전스란 무엇일까요? 비즈니스 인텔리전스(BI)는 비즈니스 데이터를 분석하고 실행 가능한 통찰력을 제공하도록 설계된 기술, 프로세스 및 전략의 집합입니다. BI 시스템은 원시 데이터를 의미 있는 정보로 변환하여 더 나은 전술적 및 전략적 의사 결정을 지원합니다. BI 도구를 사용하면 사용자는 광범위한 데이터에 액세스하여 비즈니스를 더 잘 이해하기 위해 분석할 수 있습니다. 비즈니스 인텔리전스의 중요성과 이점 BI는 오늘날의 데이터 {...}

비즈니스 인텔리전스 도구 (Business Intelligence Tool)

비즈니스 인텔리전스(BI) 도구는 데이터를 수집, 처리, 분석하고 비즈니스 데이터를 의미 있게 보여주도록 설계된 소프트웨어 애플리케이션입니다. 본질적으로 이러한 도구들은 원시 데이터를 실행 가능한 인사이트로 변환하여 조직 전반에 걸친 전략적 의사결정을 이끌어냅니다. BI 도구는 기본적인 보고 및 데이터 시각화에서부터 고급 분석과 예측 모델링에 이르기까지 광범위한 기능을 포괄합니다.BI 도구의 주요 목적은 단순한 데이터 표현을 넘어섭니다. 이들은{...}

비즈니스 인텔리전스 플랫폼 (Business Intelligence Platform)

비즈니스 인텔리전스(BI) 플랫폼은 조직이 데이터를 수집·이해·시각화하여 근거 있는 비즈니스 의사결정을 내릴 수 있도록 돕는 종합적인 기술 솔루션입니다. 이러한 플랫폼은 기업 데이터 전략의 기술적 중추 역할을 하며, 조직 전반에서 발생하는 원시 정보를 실행 가능한 인사이트로 전환하여 경쟁 우위를 이끌어냅니다.비즈니스 인텔리전스라는 개념은 1865년으로 거슬러 올라가며, 리처드 밀러 데벤스(Richard Millar Devens)가 은행가 헨리 {...}

비즈니스 인텔리전스와 비즈니스 분석의 차이

비즈니스 인텔리전스와 비즈니스의 차이는 무엇인가요? 비즈니스 인텔리전스(BI) 는 비즈니스 데이터로부터 실행 가능한 통찰력을 생성하기 위해 설계된 기술, 프로세스, 전략의 집합입니다. BI 시스템은 원시 비즈니스 운영 데이터를 수집하고 저장하며, 이를 분석하여 더 나은 의사결정을 지원하는 의미있는 정보로 변환합니다. 비즈니스 분석(BA) 은 많은 전문가들에게 BI의 상위 집합으로 간주됩니다. 통계와 수학을 사용하여 데이{...}

빅데이터 분석(Big Data Analytics)

데이터 분석과 빅데이터 분석의 차이 하둡이 발명되기 전에는 현대식 스토리지와 컴퓨팅 시스템의 기저를 이루는 기술이 비교적 기본적이어서, 기업에서는 대부분 "스몰 데이터" 분석만 가능한 한계가 있었습니다. 다만 이렇게 비교적 기본적인 형태의 분석도 어려울 수 있습니다. 특히 새로운 데이터 소스를 통합하는 경우 분석이 쉽지 않습니다. 기존 데이터 분석의 경우, 주로 관계형 데이터베이스(예: SQL 데이터베이스)를 사용하고 구조적 데이터 테이블로 구{...}

생성형 AI

생성형 AI는 인간의 창작, 작업, 커뮤니케이션 방식을 변화시키고 있습니다. Databricks는 생성형 AI의 작동 원리와 향후 방향에 대해 설명합니다. {...}

서버리스 컴퓨팅(Serverless Computing)

서버리스 컴퓨팅은 컴퓨트 인프라의 최신 진화입니다. 기관들은 웹 애플리케이션을 실행하기 위해 물리적 서버가 필요했습니다. 그러나 클라우드 컴퓨팅의 등장으로 가상 서버를 생성할 수 있게 되었지만, 여전히 그것들을 관리하는 데 시간과 노력이 필요했습니다. 이제 서버리스 컴퓨팅 모델에서는 클라우드 서비스 제공자가 인프라 관리 작업을 담당하고, 기업 개발자들은 애플리케이션을 생성하고 배포하는 데 집중할 수 있습니다. 서버리스 컴{...}

설비 종합 효율(Overall Equipment Effectiveness, OEE)

설비 종합 효율이란 무엇입니까? 설비 종합 효율(Overall Equipment Effectiveness, OEE)은 제조 작업장이 운영되도록 예약된 기간 동안 최대 잠재력 대비 얼마나 활용되는지(시설, 시간 및 자재)를 측정한 것입니다. OEE는 실제 생산적인 제조 시간의 백분율을 파악합니다. OEE는 분리되거나 연속적인 프로세스의 전체 성과를 보여 주는 대시보드입니다. OEE의 최대값은 100%이며, 100%의 OEE는 최대 속도(100%의{...}

수요 전망(Demand Forecasting)

수요 예측이란 무엇인가요? 수요 예측은 소비자 수요(=미래의 수익)를 예측하는 과정입니다. 특히, 쇼핑객이 구매할 제품군을 정량적 데이터와 정성적 데이터를 사용하여 예측합니다. 소매업체는 소비자가 원하는 시점에 제품을 제공하지 못해 1조 달러 규모에 이르는 수익을 놓치고 있습니다. 수요 예측에 실패한 기업은 매장에 잘못된 제품을 공급하거나 심지어는 재고가 동이 나기도 합니다. 리테일용 레이크하우스는 수요 예측을 어떻게 지원하나요? 리테일용 레이{...}

스노우플레이크 스키마(Snowflake)

스노우플레이크 스키마란 무엇인가요?스노우플레이크 스키마는 스타 스키마를 확장한 다차원적 데이터 모델로, 차원 테이블을 하위 차원으로 나눕니다. 스노우플레이크 스키마는 OLAP 웨어하우스에 대한 비즈니스 인텔리전스 및 보고, 데이터 마트, 관계형 데이터베이스에 흔히 사용됩니다.스노우플레이크 스키마에서 엔지니어는 개별 차원 테이블을 논리적 하위 차원으로 나눕니다. 이렇게 하면 데이터 모델이 더 복잡해지만, 애널리스트가 작업하기는 더 쉬우며 특히 특{...}

스타 스키마

스타 스키마란 무엇입니까? 스타 스키마는 데이터베이스에서 데이터를 정리하는 데 사용하는 다차원적 데이터 모델로, 쉽게 이해하고 분석할 수 있습니다. 스타 스키마는 데이터 웨어하우스, 데이터베이스, 데이터 마트 등의 툴에 적용할 수 있습니다. 스타 스키마는 대규모 데이터 세트에 대한 쿼리를 최적화하도록 설계되었습니다. Ralph Kimball이 1990년대에 도입한 스타 스키마는 반복적 비즈니스 정의의 복제를 줄여 데이터 웨어하우스에서 데이터를 {...}

스트리밍 분석(Streaming Analytics)

스트리밍 분석은 어떻게 동작합니까?스트리밍 분석은 이벤트 스트리밍 처리라고도 알려져 있으며, 최신 데이터와 "움직이는" 데이터로 구성된 거대한 데이터 풀을 분석합니다. 이때 사용하는 연속적인 쿼리를 이벤트 스트림이라고 합니다. 이러한 스트림은 하나 또는 여러 작업의 결과로 발생하는 특정 이벤트에 의해 트리거됩니다. 예를 들면, 금융 트랜잭션, 장비 고장, 소셜 포스팅이나 웹사이트 클릭 등 이외에도 측정 가능한 활동 등이 있습니다. 이러한 데이터{...}

스파크 API(Spark API)

스파크 API는 아파치 스파크 빅데이터 처리 엔진에서 데이터 처리와 분석을 수행하기 위한 프로그래밍 인터페이스(API)입니다. Spark를 다루다 보면 다음과 같은 세 가지 API를 접하게 됩니다. DataFrame, Dataset 그리고 RDD의 세 가지입니다. RDD란 무엇입니까? RDD, 즉 Resilient Distributed Datasets란 분산형 컴퓨팅을 포함한 레코드 컬렉션으로 본질적으로 내결함성이 있고 변경 불가능합니다. 저수{...}

스파크 튜닝 (Spark Tuning)

Spark 성능 튜닝이란 무엇입니까?Spark 성능 튜닝은 시스템이 사용하는 메모리, 코어와 인스턴스를 대상으로 기록할 설정을 조정하는 프로세스를 가리킵니다. 이 프로세스를 거치면 Spark에서 흠잡을 데 없는 성능을 보장할 수 있으며, Spark에서 리소스 병목 현상을 예방하는 효과도 있습니다.데이터 직렬화란 무엇입니까?메모리 사용량을 줄이기 위해 Spark RDD를 직렬화 형식으로 저장해야 할 수도 있습니다. 데이터 직렬화는 또한 네트워크 {...}

시맨틱 레이어 (Semantic Layer)

시맨틱 레이어 이해 시맨틱 레이어는 복잡한 데이터 모델과 비즈니스 사용자를 연결하는 비즈니스 친화적인 인터페이스입니다. 추상화 계층 역할을 하며, 기술적인 데이터 구조를 익숙한 비즈니스 용어와 개념으로 변환하여 데이터 분석가와 비즈니스 사용자가 깊은 기술 전문 지식 없이도 데이터에 접근하고, 분석하며, 통찰력을 얻을 수 있도록 합니다. 정의 및 목적 시맨틱 레이어는 최신 데이터 스택에서 중간 번역 계층 역할을 하며, 원시 데이터를 비즈니스적으로{...}

신경망 (Neural Network)

신경망이란 무엇입니까? 신경망이란 뇌 속 뉴런의 망형 구조를 닮은 다층형 구조의 컴퓨팅 모델입니다. 여기에는 서로 연결된 처리 소자, 일명 '뉴런'이라는 것이 있으며 이들이 서로 협력하여 출력 함수를 도출합니다. 신경망은 입력 및 출력 계층/차원으로 구성되며 대부분은 숨겨진 계층도 있습니다. 숨겨진 계층은 입력을 출력 계층에서 사용할 수 있는 무언가로 변환해주는 단위로 구성됩니다. 신경망 아키텍처의 유형: 신경망, 다른 말로 인공 신경망(Art{...}

실시간 리테일 (Real-time Retail)

소매업에서 실시간 데이터는 무엇인가요?실시간 리테일(Real-time retail)이란 데이터에 실시간 액세스하는 것을 말합니다. 배치 중심 액세스, 분석, 컴퓨팅에서 벗어나면 데이터를 "언제든" 사용할 수 있어 정확하고 시기적절하게 의사결정을 내리고 비즈니스 인텔리전스를 얻을 수 있습니다. 수요 예측, 개인화, 진열 상품 가용성, 도착 시간 예측, 주문 수령과 통합 등의 실시간 사용 사례는 공급망 민첩성을 개선하고 서비스 비용을 낮추{...}

실시간 분석 (Real-Time Analytics)

실시간 분석이란 무엇인가요?실시간 분석은 데이터 생성부터 분석까지의 지연을 최소화해, 스트리밍 데이터를 거의 실시간으로 수집하고 분석하는 방법을 의미합니다. 실시간 분석은 개인 맞춤형 광고 또는 제품/서비스, 스마트 가격 책정, 예측적 유지관리와 같이 데이터의 적시성이 중요한 분야에서 사용되는 경우가 많습니다. 실시간 분석은 데이터 스트리밍의 기본 기능을 기반으로 합니다.데이터 스트리밍이란 무엇인가요?데이터 처리에는 배치 처리와 스트리밍 처리의{...}

아파치 스파크 (Apache Spark)

Apache Spark란 ? Apache Spark는 빅데이터 워크로드에 쓰이는 오픈 소스 분석 엔진입니다. 배치는 물론 실시간 분석과 데이터 처리 워크로드도 처리할 수 있습니다. Apache Spark는 2009년 캘리포니아 대학교 버클리 캠퍼스에서 연구 프로젝트로 시작되었습니다. 연구진은 하둡 시스템에서 처리 작업의 속도를 높일 방법을 강구하고 있었습니다. 이 엔진은 하둡 MapReduce 기반이{...}

아파치 쿠두(Apache Kudu)

Apache Kudu란 무엇입니까? 아파치 쿠두는 아파치 하둡용으로 개발한 무료, 오픈 소스 컬럼 기반 스토리지 시스템입니다. 각각의 행에 낮은 레이턴시(low-latency) 랜덤 액세스, 밀리초 급의 액세스를 지원하며 우수한 분석 액세스 패턴을 제공하는 구조적 데이터용 엔진이며, 널리 보급된 Hadoop Distributed File System [HDFS] 및 HBase NoSQL Database를 연결하기 위해 만든 빅데이터 엔{...}

에이전트 평가 모범 사례: 효과적인 AI 평가

AI 에이전트 평가란 무엇인가요? 종합 가이드AI 에이전트 평가는 자율적인 AI 시스템이 얼마나 효과적으로 작업을 수행하고, 스스로 결정을 내리며, 도구와 상호작용하고, 여러 단계에 걸쳐 추론하며, 안전하고 신뢰할 수 있는 결과를 생성하는지를 측정하는 분야입니다. 조직이 AI 에이전트를 분석, 고객 서비스, 내부 운영 및 특정 도메인 자동화로 확장함에 따라 정확성, 안전성, 비용 효율성을 평가하는 능력은 AI를 책임감 있게 대규모로 배포하기 위{...}

에이전틱 AI란 무엇인가요?

자율 AI 시스템과 실제 활용 사례에 대한 이해에이전틱 AI 소개에이전틱 AI는 개별 프롬프트에 응답하는 것이 아니라 최소한의 인간 개입으로 목표를 달성하기 위해 자율적으로 계획하고, 결정하고, 행동할 수 있는 지능형 플랫폼을 의미합니다. 에이전틱 AI는 복잡한 작업을 엔드투엔드로 처리하고 지속적으로 작동하여 전문성을 확장하고 인간의 조정을 줄일 수 있습니다. 단순히 질문에 답하는 것을 넘어 주도적으로 행동합니다.에이전틱 AI의 독특한 접근 방{...}

엔터프라이즈 데이터 웨어하우스(EDW)

엔터프라이즈 데이터 웨어하우스(EDW)란 무엇인가요?엔터프라이즈 데이터 웨어하우스(EDW)는 조직의 데이터를 통합하고 관리하기 위해 설계된 중앙 집중식의 구조화된 리포지토리입니다. EDW의 핵심 이점은 서로 다른 시스템의 정보가 통합되고 표준화되어 일관된 보고 및 분석을 위해 액세스할 수 있는 관리형 환경을 제공한다는 것입니다.약어 EDW는 전문적인 기술 컨텍스트에서 널리 사용되지만 데이터 웨어하우스 (DW) 또는 데이터 웨어하우징(DWH)과 {...}

예측 분석(Predictive analytics)

예측 분석이란 무엇인가요?예측 분석(Predictive analytics)은 지능형 분석의 한 가지 형태입니다. 새로운 데이터와 과거 데이터를 둘 다 사용하여 패턴을 파악하고 향후 결과와 추세를 예측합니다.예측 분석은 어떻게 동작하나요?예측 분석은 통계 분석 기법, 분석 쿼리, 데이터 마이닝, 예측 모델링과 자동 머신 러닝 알고리즘과 같은 다양한 기법을 활용해 데이터 세트(Dataset)가 예측형 모델을 만들게 한 다음 특정 이벤트의 발생 가능{...}

예측적 유지관리 (Predictive Maintenance)

예측적 유지관리란 무엇입니까? 요컨대, 예측적 유지 관리는 가동 시간과 생산성을 극대화하기 위해 고정된 일정을 따르는 대신 자산의 실제 상태를 기반으로 자산의 유지 관리가 필요한 시기와 수행해야 하는 특정 유지 관리 활동을 알아내는 것입니다. 이는 많은 비용을 초래하는 장비 다운타임을 줄이기 위해 장애를 예측 및 예방하고 적절한 유지 관리 루틴을 수행하는 것입니다. 장비로부터 IoT 및 센서 데이터가 스트리밍되므로 예측적 유지 관리를 통해 제조{...}

오케스트레이션

오케스트레이션이란 무엇입니까? 오케스트레이션은 여러 개의 컴퓨터 시스템, 애플리케이션 및/또는 서비스를 조율하고 관리하는 것으로, 여러 개의 작업을 함께 연결하여 크기가 큰 워크플로나 프로세스를 실행하는 방식을 취합니다. 이러한 프로세스는 여러 개의 자동화된 작업으로 구성될 수 있으며 관련되는 시스템도 여러 개일 수 있습니다. 오케스트레이션의 목표는 빈도가 높고 반복할 수 있는 프로세스의 실행을 간소화 및 최적화하여 데이터 팀이 복잡한 작업과 {...}

오픈 뱅킹 (Open Banking)

오픈 뱅킹이란 무엇입니까?오픈 뱅킹은 소비자의 금융 데이터에 대한 액세스 권한을 안전하게 제공하는 수단이며, 모든 것에 고객의 동의가 필요합니다.² 규제, 기술 및 동적 경쟁 환경이라는 요인 때문에 오픈 뱅킹은 은행이 아닌 타사, 소비자 등에 고객 데이터를 민주화할 것을 요구합니다. 혁신은 관련성이 매우 높은 플랫폼 기반 배포를 목표로 산업을 진화시키면서 은행에는 에코시스템과 신규 시장 진출 범위를 확장할 수 있는 다양한 기회를 제공합니다. 오{...}

온라인 트랜잭션 처리(OLTP)란 무엇인가요?

OLTP(온라인 트랜잭션 처리)는 짧고 빠른 대량의 트랜잭션을 낮은 지연 시간으로 효율적으로 처리할 수 있는 데이터 처리 유형입니다. 기본적으로 OLTP는 데이터를 신속하게 저장하고 검색하도록 설계되었습니다. 일상적인 필수 운영 워크로드에 중점을 두며, 일반적으로 소량의 데이터를 삽입, 업데이트 또는 삭제하는 것과 같은 트랜잭션을 포함합니다. 예를 들어 은행 예금 기록, 항공권 예약, 온라인 구매 처리 등이 있습니다.{...}

운영 머신러닝이란 무엇일까요?

작성자: Kevin Stumpf, 공동 창립자 겸 CTO2015년, 저희가 Uber의 머신러닝 플랫폼인 Michelangelo를 출시하기 시작했을 때 흥미로운 패턴을 발견했습니다. 플랫폼에서 출시된 ML 모델의 80%가 최종 사용자 경험(Uber 탑승객 및 운전자)에 직접적인 영향을 미치는 운영 머신러닝 사용 사례를 지원했다는 것입니다. 단 20%만이 분석적 의사 결정을 지원하는 분석 머신러닝 사용 사례였습니다.저희가 관찰한 운영 ML/분석 M{...}

유전체학 (Genomics)

유전체학이란? 유전체학(Genomics)은 유기체의 genomic DNA 서열, 분석과 관련된 유전학의 한 분야입니다. 이 학문의 주된 목적은 DNA의 전체 서열, DNA를 구성하는 원자의 구성이나 여러 DNA 원자 사이의 화학적 결합 형태를 알아내는 데 있습니다. 유전체학은 유전체를 하나의 완전한 구조로 보는 학문입니다. 따라서 어떤 유기체의 전체적인 유전 형질을 연구하는 학문이라고 정의할 수 있겠습니다. DNA를 사상 최초로 분리한 것은 1{...}

이상치 탐지(Anomaly Detection)

이상치 탐지란? 이상치 탐지(Anomaly Detection)은 나머지 관측 결과와는 통계적으로 달라 의심을 유발할 수 있는 드문 이벤트나 관측 결과를 알아보는 기법입니다. 그러한 “변칙” 행동은 보통 신용카드 사기 행위, 시스템 오류나 사이버 공격 등 일종의 문제점으로 해석될 때가 많습니다. 금융계의 경우, 감시해야 할 트랜잭션이 수천 건에서 수백만 건에 달하므로 변칙 검색을 이용하면 오류가 발생하는 위치를 짚어내어 근본 원인 분석을 강화하고{...}

인공 일반 지능: AI의 새로운 지평에 대한 이해

범용 인공지능(AGI)은 인간 수준의 지적 작업을 전 범위에 걸쳐 수행할 수 있는 가상적인 형태의 인공지능(AI)을 의미합니다. 더 구체적으로 말하면, 범용 인공지능은 특정 작업에 대한 프로그래밍 없이도 광범위하고 유연하며 이전 가능한 지능을 갖춘 시스템을 의미합니다.인공 일반 지능(AGI)은 더 넓은 범주의 AI와는 구별됩니다. 후자는 음성 인식, 이미지 분류, 번역 또는 추천과 같이 일반적으로 인간의 지능이 필요한 작업을 수행하도록 설계된 {...}

자동화 편향 (Automation Bias)

자동화 편향이란 무엇입니까? 자동화 편향(Automation bias)은 자동 보조 도구나 의사 결정 지원 시스템에 지나치게 의존하는 것을 말합니다. 자동 의사 결정 보조 도구가 널리 보급되면서 중환자실이나 항공기 조종석과 같이 중대한 의사 결정을 내려야 하는 상황에서 이런 도구를 이용하는 사례가 점점 흔해지고 있습니다. 사람은 인지적인 노력이 가장 적게 필요한 길을 택하여 "자동화 편향"으로 기우는 경향이 있습니다. 같은 개념을 AI와 자동화{...}

증강 분석이란 무엇인가요?

증강 분석은 비즈니스 인텔리전스 (BI)에 인공지능 (AI)과 머신러닝 (ML)을 데이터 분석 워크플로에 통합하여 발전시킨 것입니다. 증강 분석은 인간 분석가를 대체하는 대신 반복적인 작업을 자동화하고, 숨겨진 인사이트를 발견하며, 조직 전반에 걸쳐 데이터 기반 의사결정에 대한 접근을 대중화하여 분석가의 역량을 강화합니다.{...}

지속형 애플리케이션(Continuous Application)

지속형 애플리케이션이란? 지속형 애플리케이션(Continuous Application)은 실시간으로 데이터에 반응하는 종단간(E2E) 애플리케이션입니다. 특히 개발자의 경우 별도의 시스템에서 현재 처리 중인 지속형 애플리케이션의 여러 측면(예를 들어 쿼리 제공, 배치 작업과의 상호작용 등)을 지원하기 위해 단 한 가지 프로그래밍 인터페이스를 사용하고자 합니다. 아래에 다음과 같은 사용 사례를 처리할 수 있는 지속형 애플리케이션의 예를 소개하였습{...}

추출, 로드, 변환이란 무엇인가요? (ELT)

ELT는 추출, 로드, 변환 의 약자로, 클라우드 네이티브 분석 플랫폼을 위해 설계된 최신 데이터 통합 접근 방식입니다. ELT 파이프라인에서는 데이터를 먼저 소스 시스템에서 추출한 다음 중앙 데이터 리포지토리에 직접 로드하고 마지막으로 해당 대상 시스템 내부에서 변환합니다. 이러한 순서 지정은 ELT의 결정적인 특징이며, ELT가 최신 데이터 아키텍처의 기반이 된 핵심적인 이유입니다.ELT라는 약어는 프로세스의 각 단계를 나타냅니다. 추출 은{...}

추출, 변환, 로드(ETL)란 무엇인가요?

Delta Live 테이블DLT을 사용하면 Delta Lake에서 고품질 데이터를 제공하는 안정적인 데이터 파이프라인을 손쉽게 구축하고 관리할 수 있습니다. Databricks의 ETL자세히 알아보기 ETL이란 무엇입니까?기업에서 다루는 데이터, 데이터 소스와 데이터 유형의 양이 늘어나면서 분석, 데이터 사이언스와 머신 러닝 이니셔티브에 그러한 데이터를 활용하여 비즈니스 인사이트 성장도 유도하는 것도 중요성이 점점 커지게 되었{...}

컴퓨터 비전이란 무엇인가?

컴퓨터 비전은 기계가 인간이 시각을 통해 정보를 분석하고 이해하는 방식과 최대한 가깝게 시각 정보를 분석하고 이해할 수 있도록 하는 데 중점을 둔 컴퓨터 과학 내 연구 분야입니다. 핵심적으로 컴퓨터 비전은 원본 이미지나 동영상에서 의미 있는 인사이트를 생성하여 기술 시스템이 시각적 입력을 기반으로 객체를 인식하고, 패턴을 감지하며, 의사 결정을 내릴 수 있도록 하는 것입니다.인공 지능 (AI) 및 machine learning (ML) 분야와 {...}

텅세텐(Tungsten)이란 무엇인가요?

Tungsten Project란 무엇입니까?Tungsten은 Apache Spark의 실행 엔진에 변경 사항을 적용하여 메모리 및 CPU를 Spark 애플리케이션에 적합하게 효율성을 개선하는 데 중점을 두어 성능을 최신 하드웨어 한도에 더 가깝게 밀어붙이고자 추진한 엄브렐라 프로젝트의 코드명입니다.Tungsten Project의 이니셔티브:메모리 관리와 이진수 처리: 애플리케이션 의미 체계를 활용하여 메모리를 명시적으로 관리하며 JVM{...}

통합 데이터 웨어하우스(Unified Data Warehouse)

Unified Data Warehouse란 무엇입니까? 기업의 통합 데이터베이스인 엔터프라이즈 데이터 웨어하우스에는 한 기업 조직의 각종 비즈니스 정보가 모두 보관되어 있어 회사 전체에서 액세스할 수 있게 해줍니다. 오늘날 대부분 기업에서는 데이터를 서로 격리된 사일로에서 관리하고, 동시에 같은 조직에 소속된 여러 팀에서도 다양한 데이터 관리 툴을 사용해 여러 가지 유형의 데이터를 관리합니다. 예를 들어 데이터 품질, 데이터 통합, 데이터 거버{...}

파케이(Parquet)

파케이란 무엇입니까? 아파치 파케이는 효율적인 데이터 스토리지와 검색을 지원하도록 설계되었으며, 컬럼 중심의 오픈 소스 데이터 파일 형식입니다. 복잡한 데이터를 일괄적으로 처리하는 기능을 더욱 향상하여 효율적인 데이터 압축 및 인코딩 방식을 제공합니다. 아파치 파케이는 배치 및 인터랙티브 워크로드에 공통적인 상호 교환 형식을 제공하도록 설계되었습니다. 하둡에서 제공하는 다른 컬럼형 스토리지 파일 형식(즉, RCFile 및 ORC)과 유{...}

프롬프트 엔지니어링(Prompt Engineering)

프롬프트 엔지니어링은 인공지능 (AI) 개발의 최전선에 위치한 신흥 분야로, 머신 러닝 기반의 생성 AI(생성형 AI) 모델에 대한 효과적인 입력을 만드는 중요한 과정에 초점을 맞추고 있습니다. AI 시스템이 점점 더 복잡해짐에 따라, 그들과 효과적으로 소통하는 능력이 중요한 기술이 되었습니다. Databricks에서 제공하는 인사이트를 통해 인간의 의도와 기계의 이해를 연결하는 효과적인 프롬프트 설계 방법을 알아보세요. 기{...}

피처 스토어(Feature Store)란 무엇입니까?

업데이트: 2025년 5월 15일저자 소개:Mike Del Balso, Tecton의 CEO 겸 공동 창립자Willem Pienaar, Feast개발자데이터 팀은 운영 머신러닝을 위해서는 데이터 파이프라인 구축을 훨씬 뛰어넘는 데이터 문제를 해결해야 한다는 점을 깨닫기 시작했습니다.이전 게시물인 ML 데이터에 DevOps가 필요한 이유에서 저희는 ML 시스템을 프로덕션 환경에 배포할 때 팀이 직면하는 몇 가지 주요 데이터 문제를 강조했습니다.올{...}

피처 엔지니어링

머신 러닝을 위한 피처 엔지니어링(Feature engineering) 데이터 처리라고도 불리는 피처 엔지니어링은 가공되지 않은 데이터를 머신 러닝 모델 개발 사용할 수 있는 기능으로 전환하는 프로세스입니다. 이 항목에서는 피처 엔지니어링의 주요 개념과 피처 엔지니어링이 ML 수명 주기 관리에서 수행하는 역할을 설명합니다. 머신 러닝에서 특성은 모델 트레이닝에 사용되는 입력 데이터입니다. 특성은 모델이 학습할 어떤 엔터티의 속성입니다. 가공되지{...}

하둡 에코시스템(Hadoop Ecosystem)이란 무엇인가요?

하둡 에코시스템이란 무엇입니까?Apache Hadoop 에코시스템은 Hadoop 소프트웨어 라이브러리를 구성하는 다양한 오픈 소스 컴포넌트들의 집합입니다. 다양한 오픈 소스 프로젝트와 보조 도구들이 함께 포함되어 있습니다. 하둡 에코시스템 중에서 가장 잘 알려진 툴을 몇 가지만 예로 들면 HDFS, Hive, Pig, YARN, MapReduce, Spark, HBase , Oozie, Sqoop, Zookeeper&{...}

해시 버킷(Hash Buckets)

해시 버킷이란? 컴퓨팅에서 해시 테이블 [해시 맵]은 키 [고유한 문자열이나 정수]를 기반으로 개체에 사실상 직접적인 액세스를 제공하는 데이터 구조를 말합니다. 해시 테이블은 해시 함수를 사용해 인덱스를 버킷이나 슬롯 어레이로 연산하는데, 여기에서 원하는 값을 찾을 수 있습니다. 여기에 사용되는 키의 주된 특징을 소개합니다. 사용되는 키는 SSN, 전화번호, 계좌 번호 등 무엇이든 가능 반드시 고유한 키가 있어야 함 각각의 키가 값과 연결됨(즉{...}