Glossary
인공 신경망이란 무엇입니까? 인공 신경망(Artificial Neural Network, ANN)은 사람의 뇌 속 뉴런의 작용을 본떠 패턴을 구성한 컴퓨팅 시스템의 일종입니다. 인공 신경망은 어떻게 작동합니까? 인공 신경망(ANN)은 가중치를 적용한 방향성 그래프라고 보면 가장 적당합니다. 이를 보통 여러 계층으로 구조화합니다. 이러한 계층에는 사람의 뇌 속에 있는 생물학적 뉴런을 모방한 수많은 노드가 있고, 이들이 서로 연결되어 있으며 활성화{...}
트랜잭션이란 무엇입니까? 데이터베이스와 데이터 스토리지 시스템이라는 맥락에서 트랜잭션이란 한 단위의 작업으로 취급되는 모든 작업을 말합니다. 트랜잭션은 완전히 완료되기도 하고 전혀 완료되지 않을 수도 있으며, 스토리지 시스템을 한결같은 상태로 둡니다. 트랜잭션의 전형적인 예는 은행 계좌에서 현금을 인출할 때 일어나는 일입니다. 현금이 계좌에서 인출되거나, 인출 되지 않거나 둘 중의 하나일 뿐 그 중간 어딘가의 상태란 없습니다. {...}
경사하강법(Gradient descent)은 머신 러닝과 딥러닝 알고리즘에서 가장 보편적으로 쓰이는 최적화 방식입니다. 머신 러닝 모델을 트레이닝하는 데 쓰입니다. 경사하강법의 유형 최신 머신 러닝 및 딥러닝 알고리즘에 쓰이는 경사하강법은 크게 세 가지 유형으로 나눌 수 있습니다. 배치 경사하강법 배치 경사하강법(Batch Gradient Descent)이 그중 가장 간단한 유형입니다. 이것은 트레이닝 데이터세트의 각 예제를 대상으로 오류를 계{...}
AI 모델이란 무엇인가요? AI 모델은 데이터를 사용하여 패턴을 인식하고 예측하고 결정을 내리는 컴퓨터 프로그램입니다. AI 모델은 산술, 반복, 결정 로직에 기반한 단계별 규칙인 알고리즘을 사용합니다. 이를 통해 인간의 개입 없이 추론, 학습 및 문제 해결과 같은 인간과 같은 기능을 수행할 수 있습니다. AI 모델은 정보를 분석하고 복잡하고 동적인 문제를 해결하며 대량의 데이터를 사용하여 통찰력을 제공하는 데 능숙합니{...}
파인튜닝 이해하기 특정 목적을 위해 인공 지능 (AI) 및 머신 러닝 (ML) 모델을 훈련시킬 때, 데이터 과학자와 엔지니어들은 기존의 사전 훈련된 대형 언어 모델 (LLM)을 수정하는 것이 처음부터 새로운 모델을 훈련시키는 것보다 더 쉽고 비용이 적게 든다는 것을 발견했습니다. 대형 언어 모델의 기반이 되는 것은 광범위한 데이터셋에 훈련된 강력하고 범용적인 AI로, 다양한 주제와 작업에 걸쳐 인간과 같은 텍스트를 이해하고 생성할 수 있습니다.{...}
AI 에이전트란 무엇인가요?요약AI 에이전트가 인식하고, 결정하고, 자율적으로 행동하는 방식을 포함하여 기존 AI 시스템과 어떻게 다른지 알아보세요.1960년대 초기의 규칙 기반 프로그램에서부터 오늘날의 고급 학습 기반 시스템에 이르기까지 AI 에이전트의 진화 과정을 살펴보세요.AI 에이전트 배포를 위한 모범 사례는 물론, 금융, 의료, 소매와 같은 산업을 AI 에이전트가 어떻게 혁신하고 있는지 알아보세요.인공 지능 (AI) 에이전트는 AI의 {...}
Apache Hive란 무엇입니까? Apache Hive는 광범위한 Hadoop 에코시스템에 속하는 Apache Hadoop Distributed File System(HDFS)에서 추출한 대용량 데이터세트를 읽고, 쓰고, 관리하도록 설계된 오픈 소스 데이터 웨어하우스 소프트웨어입니다. Apache Hive는 광범위한 Apache Hive 문서 및 지속적 업데이트를 통해 쉽게 액세스할 수 있는 방식으로 계속해서 데이터 처리를 혁신합니다{...}
Apache Kylin이란 무엇입니까? Apache Kylin은 인터랙티브 분석 빅 데이터에 적합한 분산형 오픈 소스 온라인 분석 처리(Online Analytics Processing, OLAP) 엔진입니다. Apache Kylin은 하둡/Spark에서 SQL 인터페이스와 다차원 분석(OLAP)을 제공하기 위해 고안되었습니다. 또한 ODBC 드라이버, JDBC 드라이버 및 REST API를 사용해 BI 툴과 손쉽게 통합할 수도 있습니{...}
Apache Spark as a Service란 무엇입니까? Apache Spark는 고속 실시간 대규모 데이터 처리를 위한 오픈 소스 클러스터 컴퓨팅 프레임워크입니다. Spark는 2009년 UC 버클리 AMPLab에서 탄생한 이래 큰 성장을 이루었습니다. 지금은 빅데이터 부문에서 가장 큰 오픈 소스 커뮤니티로 평가되며 50여 개 조직과 단체에서 200여 명이 기여하고 있습니다. Databricks는 자사 Apache Spark 최적화 버전을{...}
생물정보학(Bioinformatics)이란 생물학 데이터를 모은 대규모 컬렉션에서 연산을 통해 지식을 추출하는 학문 분야를 말합니다. 생물정보학은 생물학적 데이터를 저장, 검색, 구성하고 분석하는 데 생물공학 IT를 사용하는 분야를 일컫습니다. 유전체 서열(genome sequencing) 프로젝트나 여타 연구에서 엄청난 양의 데이터가 생성되었는데, 이 데이터 웨이브의 결과 생물학 분야의 난제는 대부분 컴퓨팅 쪽 문제로 바뀌게 되었습니다. 생물{...}
Spark SQL의 핵심은 Catalyst Optimizer입니다. 이것은 지능형 프로그래밍 언어 기능(예: Scala의 패턴 매칭과 quasi quote 등)을 참신한 방식으로 활용해 확장할 수 있는 쿼리 최적화 프로그램을 구축합니다. Catalyst는 Scala로 쓴 기능성 프로그래밍 구조를 기반으로 하며 다음과 같은 두 가지 용도를 염두에 두고 고안하였습니다.Spark SQL에 새로운 최적화 기법과 특징을 손쉽게 추가최적화 프로그램 확장을{...}
딥러닝에서 컨볼루셔널 신경망(Convolutional Neural Network, CNN 또는 ConvNet)이란 심층 신경망의 한 등급으로, 보통 이미지 속에 존재하는 패턴을 인지하는 데 쓰이지만 이외에 공간 데이터 분석, 컴퓨터 비전, 자연어 처리, 신호 처리 및 여타 다양한 용도에도 쓰입니다. 컨볼루셔널 신경망의 구조는 사람의 뇌 속 뉴런의 연결 패턴과 닮은 형태를 취하며 시각 피질(Visual Cortex) 조직에서 영감을 얻었습니다. {...}
데이터 변환이란? 데이터 변환은 데이터 소스에서 추출된 가공되지 않은 데이터를 사용 가능한 데이터세트로 변환하는 프로세스입니다. 데이터 파이프라인에는 여러 데이터 변환이 포함되는 경우가 많으며, 복잡한 정보를 정제되고 신뢰할 수 있는 고품질의 데이터로 변경하여 조직의 운영 요구 사항을 충족하고 실행 가능한 인사이트를 생성하는 데 사용할 수 있도록 합니다. 데이터 변환 프로세스는 데이터 엔지니어링의 핵심 프로세스입니다. {...}
Databricks Runtime은 Databricks에서 관리하는 머신 클러스터에서 실행되는 소프트웨어 아티팩트 세트입니다. 여기에는 Spark도 포함하지만 이외에도 여러 구성요소와 업데이트를 추가하여 빅데이터 분석의 사용성, 성능과 보안을 대폭 개선해줍니다. 주된 차별점은 다음과 같습니다.DBIO로 성능 개선: Databricks I/O 모듈, 즉 DBIO는 수직으로 통합된 스택을 활용해 클라우드 내 Spark의 성능을 대폭 개선합{...}
DNA 서열이란 무엇입니까? DNA 서열은 DNA(deoxyribonucleic acid, 디옥시리보 핵산)의 뉴클레오타이드(nucleotides)의 정확한 순서를 판별하는 과정입니다. DNA 서열은 네 가지 화학적 기본 요소인 아데닌, 구아닌, 사이토신, 타이민 등 DNA 분자 내에서 발생하는 화 학 물질의 순서를 말합니다. 이러한 염기의 조합인 ATCG는 모든 생물의 genomic DNA 정보를 이루는 기본 단위입니다. 처음으로 서{...}
아파치 하둡(Apache Hadoop)은 오픈 소스, Java 기반 소프트웨어 플랫폼으로 빅데이터 애플리케이션용 데이터 처리와 스토리지를 관리하는 역할을 합니다. Hadoop 플랫폼은 컴퓨팅 클러스터 내 여러 노드에 Hadoop 기반 빅데이터 처리와 분석 작업을 분산하고, 이를 동시에 실행할 수 있는 작은 단위의 워크로드로 분해합니다. Hadoop의 주요 장점은 확장성, 복원력, 유연성입니다. HDFS(Hadoop Distributed File{...}
하둡 클러스터란 무엇입니까? Apache Hadoop은 오픈 소스, Java 기반 소프트웨어 프레임워크이자 병렬식 데이터 처리 엔진입니다. 하둡을 이용하면 빅데이터 분석 처리 작업을 작은 크기의 작업으로 분해하여 알고리즘(예를 들어 MapReduce 알고리즘 같은)을 사용하여 병렬식으로 수행할 수 있고, 그런 다음 하둡 클러스터에 배포하면 됩니다. 하둡 클러스터란 네트워크로 서로 연결된 일련의 컴퓨터('노드'라고 함){...}
HDFS HDFS(하둡 분산형 파일 시스템)는 하둡 애플리케이션에서 사용하는 기본 스토리지 시스템입니다. 이 오픈 소스 프레임워크는 노드 사이에 데이터를 고속으로 전송하며 주로 빅데이터를 처리하고 저장해야 하는 기업이 사용하는 경우가 많습니다. HDFS는 빅데이터를 관리하고 빅데이터 분석을 지원하는 수단을 제공하기 때문에 많은 하둡 시스템의 핵심 구성 요소입니다. 전세계 많은 기업들이 사용하고 있는 HDFS란 정확히 무엇이며 왜 필요할까요? H{...}
Hive 날짜 함수란 무엇입니까?Hive는 수많은 기본 내장 함수를 제공하여 데이터 처리와 쿼리에 도움이 됩니다. 이런 함수가 제공하는 기능 중에는 문자열 조작, 날짜 조작, 타입 변환, 조건 연산자, 수학적 함수 등이 있으며 이외에도 여러 가지가 있습니다.HIVE 기본 내장 함수의 유형날짜 함수주로 날짜에 일수를 더하는 등 이와 비슷한 연산의 날짜 데이터 타입을 대상으로 한 연산을 수행하는 데 쓰입니다.수학적 함수이런 함수는 대체로 수학 계산{...}
Hosted Spark란 무엇입니까?Apache Spark는 속도, 사용 편이성과 고급 분석을 중심으로 구축된 빅데이터용 고속, 일반 클러스터 컴퓨팅 시스템입니다. 2009년에 UC 버클리에서 처음 구축되었습니다. Scala, Java, Python과 R에서 고수준 API를 제공하며 데이터 분석에 적합한 범용 연산 그래프를 지원하는 최적화 엔진도 있습니다. 이외에도 SQL과 DataFrame용 Spark SQL, 머신 러닝용 MLlib, 그래프{...}
Jupyter Notebook이란 무엇입니까? Jupyter Notebook은 오픈 소스 웹 애플리케이션으로, 데이터 사이언티스트가 라이브 코드, 식, 기타 멀티미디어 리소스를 포함하여 문서를 생성 및 공유하는 데 사용할 수 있습니다. 주피터 노트북은 어떤 용도로 사용하나요? 주피터 노트북은 탐색적 데이터 분석(EDA), 데이터 정리 및 변환, 데이터 시각화, 통계적 모델링, 머신 러닝, 딥 러닝 등의 각종 데이터 사이언스 작업에 사용합니다. {...}
Keras 모델이란 무엇입니까? Keras는 Theano와 Tensorflow 기반의 딥러닝용 고차원 라이브러리입니다. Python 언어로 쓰여 광범위한 딥러닝 모델을 깔끔하고 편리하게 제작할 수 있습니다. Keras는 신경망 개발, 테스트에 관한 한 가장 애용되는 고수준 신경망 API 중 하나로 자리 잡았습니다. Keras 고수준 API 덕분에 요즘은 신경망 계층을 생성하고 복잡한 아키텍처를 설정하는 것쯤은 간단한 {...}
LLMOps란 무엇인가요?LLMOps(Large Language Model Ops)는 프로덕션 환경에서 대규모 언어 모델의 운영 관리에 사용되는 사례, 기술 및 도구를 포괄합니다.OpenAI의 GPT, Google의 Bard 그리고 Databricks의 Dolly가 출시된 후로 강조되고 있는 최신 LLM 기술은 LLM을 구축하고 배포하는 기업의 성장에 상당한 영향을 미치고 있습니다. 따라서 이러한 모델을 운영하는 방법에 대한 모범 사례를 구축해{...}
Managed Spark란 무엇입니까? Managed Spark 서비스를 이용하면 일괄 처리, 쿼리, 스트리밍과 머신 러닝 등을 위한 오픈 소스 데이터 툴을 유리하게 활용할 수 있습니다. 이러한 자동화 기능을 이용하면 필요에 따라 신속하게 클러스터를 만들어 간편하게 관리하고, 작업이 완료되면 끌 수 있습니다. 또한 워크로드, 성능 요구사항에 따라서나 기존 리소스를 바탕으로 클러스터 크기를 조정할 수도 있습니다. 뿐만 아니라 완전한 Managed{...}
MLOps란 무엇입니까? MLOps는 머신 러닝 작업(Machine Learning Operations)을 뜻합니다. MLOps는 머신 러닝 모델을 프로덕션으로 전환하는 프로세스를 간소화하고, 뒤이어 이를 유지관리하고 모니터링하는 데 주안점을 둔 머신 러닝 엔지니어링의 핵심 기능입니다. MLOps는 협업 기능이며, 주로 데이터 사이언티스트, DevOps 엔지니어, IT로 구성됩니다. MLOps의 용도는 무엇입니까? MLOps는 머신 러닝과 AI{...}
데이터 사이언스 분야에서 pandas DataFrame으로 데이터 사이언스의 모든 잠재력을 이끌어 낸다면 기업의 업무 방식을 혁신할 수 있다는 말은 과장이 아닙니다. 이를 위해서는 적합한 데이터 구조가 필요하며 적합한 데이터 구조를 사용하면 데이터를 조작하고 분석하면서 효율성을 극대화할 수 있습니다. 이러한 목적을 위해 사용 가능한 가장 유용한 데이터 구조 중 하나가 pandas DataFrame입니다. pandas(판다스)는 Python(파{...}
PyCharm(파이참)은 Python(파이톤)프로그래밍 언어를 개발하기 위해 사용되는 통합 개발 환경(Intergrated Development Environment, IDE)입니다. JetBrains에서 개발한 파이참은 코드 작성, 디버깅, 테스트, 배포 등 Python 개발과 관련된 모든 과정을 효율적으로 처리할 수 있는 강력한 도구를 제공합니다.PyCharm(파이참)은 Python(파이톤) 기반의 애플리케이션, 라이브러리, 알고리즘 개발뿐{...}
PySpark란 무엇입니까?Apache Spark는 Scala 프로그래밍 언어로 작성되었습니다. PySpark는 Apache Spark와 Python의 공동 작업을 지원하기 위해 출시되었으며, 사실상 Spark용 Python API의 일종입니다. 또한 PySpark를 사용하면 Apache Spark와 Python 프로그래밍 언어로 RDD(Resilient Distributed Datasets)에 접속하는 데 도움이 됩니다. 이를 위해 Py4j {...}
RDD는 처음 생겼을 때부터 Spar의 기본 사용자 대상(user-facing) API였습니다. RDD는 본질적으로 데이터의 여러 요소를 모은 변경 불가능한(immutable) 분산형 컬렉션입니다. 클러스터 내 여러 노드에 걸쳐 분할된 형태로 변환이나 작업을 제공하는 저수준 API와 동시에 작업할 수 있습니다.RDD를 사용해야 할 때를 결정짓는 5가지 이유Dataset에서 저수준 변환, 작업과 제어를 원하는 경우.데이터가 비구조적인 경우(미디어{...}
Spark Elasticsearch이란 무엇인가요?Spark Elasticsearch는 NoSQL 분산형 데이터베이스의 일종으로 문서 중심적 반정형 데이터를 저장하고 검색하고 관리합니다. 이 데이터베이스는 Apache Lucene 기반 GitHub 오픈 소스 RESTful 검색 엔진이며 Apache License 약관에 따라 릴리스되었습니다.Elasticsearch는 Java 기반이기 때문에 여러 가지 다양한 형식으로 문서 파일 을 검색 및 인덱{...}
대부분의 데이터 사이언티스트, 애널리스트, 그리고 비즈니스 인텔리전스 사용자는 데이터를 탐색할 때 인터랙티브 SQL 쿼리를 활용합니다. Spark SQL은 구조적 데이터 처리를 위한 Spark 모듈입니다. 이 모듈은 일명 DataFrames라는 프로그래밍 추상화를 제공하며 분산형 SQL 쿼리 엔진 역할도 할 수 있습니다. 이것을 이용하면 수정되지 않은 하둡(Hadoop) Hive 쿼리를 기존 배포와 데이터에서{...}
Apache Spark Streaming은 Apache Spark 스트리밍 엔진의 이전 세대입니다. Spark Streaming은 더 이상 업데이트되지 않는 레거시 프로젝트입니다. Apache Spark에는 Structured Streaming이라는 새롭고 간편한 스트리밍 엔진이 있습니다. 애플리케이션과 파이프라인 스트리밍을 위해서는 Spark Structured Streaming을 사용해야 합니다. Structured Streaming을 참조{...}
Spark 애플리케이션은 driver 프로세스 하나와 일련의 executor 프로세스로 구성됩니다. driver 프로세스는 main() 함수를 실행하고 클러스터 내 노드에 위치하며 세 가지 작업을 담당합니다. 첫째, Spark 애플리케이션 관련 정보를 유지하는 것, 둘째, 사용자의 프로그램이나 입력에 대응하는 것, 셋째는 executor 작업을 분석, 배포, 예약하는 것입니다. driver 프로세스는 매우 핵{...}
Sparklyr이란 무엇입니까?Sparklyr은 R과 Apache Spark 사이에서 인터페이스를 제공하는 오픈 소스 패키지입니다. 이제 Spark 기능을 최신 R 환경에서도 활용할 수 있습니다. Spark는 분산된 데이터와 상호작용할 수 있으면서도 레이턴시가 짧기 때문입니다. Sparklyr은 인터랙티브 환경에서 대규모 Dataset와 상 호작용을 주고받는 데 효과적인 툴입니다. 이렇게 하면 R의 친숙한 툴을 이용해 Spark 데이터를 분석할 {...}
SparkR은 Apache Spark에서 R 언어를 사용해 대규모 데이터를 분산 처리할 수 있도록 지원하는 도구입니다.Spark의 다른 언어 바인딩과 동일한 원칙을 적용하며, 환경 설정 후 바로 코드를 작성해 실행할 수 있습니다. 전체 구조는 Python API와 거의 유사하지만, R 고유의 문법을 따른다는 점에서 차이가 있습니다.일반적으로 Python API에서 제공하는 기능은 대부분 SparkR에서도 활용할 수 있습니다.{...}
Python은 일명 numpy라는 기본 내장 라이브러리를 제공하여 다차원 배열을 조작합니다. pytensor 라이브러리를 개발하려면 기본적으로 이 라이브러리부터 구성하고 사용해야 합니다. Sptensor는 희소 텐서를 나타내는 클래스입니다. 희소 텐서란 대부분의 입력 항목이 0인 Dataset입니다. 대형 대각선 행렬(diagonal matrix)이 대표적인 예입니다. (값이 0인 원소가 많음). 이것은 텐서 개체의 전체 값을 저장하지 않고, {...}
Structured Streaming은 스트림 처리용 고차원 API의 일종으로, Spark 2.2에서는 바로 프로덕션에 적용할 수 있게 되었습니다. Structured Streaming을 사용하면 Spark의 구조적 API를 사용해 배치 모드로 수행하는 것과 같은 연산을 스트리밍 방식으로 실행할 수 있습니다. 이렇게 하면 레이턴시를 줄이고 증분식으로 처리할 수 있게 됩니다. Structured Streaming의 가장 좋은 점은 코드를 사실상 {...}
지난 2015년 11월, Google에서 머신 러닝용 오픈 소스 프레임워크를 출시하며 이를 TensorFlow라 명명했습니다. 이것은 딥러닝, 신경망을 물론 CPU, GPU와 GPU 클러스터의 일반적인 수리적 연산을 지원합니다. TensorFlow의 가장 큰 장점 중 하나는 개발자, 데이터 사이언티스트와 데이터 엔지니어로 구성된 오픈 소스 커뮤니티가 있어 리포지토리에 기여한다는 점입니다. TensorFlow의 최신 버전 및 릴리스 노트는 Git{...}
Tensorflow Estimator API란 무엇입니까?TensorFlow의 Estimator API는 모델을 직관적으로 설계하고, 교육, 평가, 예측, 배포를 효율적으로 수행할 수 있게 돕는 고수준 추상화 도구입니다. TensorFlow는 아래 이미지와 같이 여러 개의 API 계층으로 구성된 프로그래밍 스택을 제공합니다. estimator는 두 가지 유형이 있어 사전에 만든 Estimator를 선택해도 되고, 아니면 사용자가 직접 {...}
Unified Artificial Intelligence(통합 인공지능 프레임워크), 즉 UAI는 Facebook에서 올해 F8 중에 발표한 개념입니다. 이 개념은 Facebook이 제작하고 아웃소싱한 2가지 딥러닝 프레임워크를 합친 것입니다. 하나는 대규모 컴퓨팅 리소스에 액세스를 보유한 리서치 중점적 PyTorch이고, 다른 하나는 Android와 Raspberry Pi 디바이스에서의 모델 배포에 주력하는 Caffe입니다. Facebook의{...}
Databricks의 Unified Data Analytics Platform는 데이터 사이언스를 엔지니어링, 비즈니스와 통합하여 혁신의 속도를 높여줍니다. Databricks를 Unified Data Analytics Platform으로 활용하면 아무런 한계 없이 엄청난 규모로 데이터를 신속하게 준비하고 정리할 수 있습니다. 또한 이 플랫폼을 이용하면 각종 인공지능 애플리케이션 전체에 ML 모델을 지속해서 교육하고 배포할 수 있습니다{...}
Unified Data Analytics는 새로운 솔루션 카테고리입니다. 데이터 처리를 AI 기술과 통합하여 기업에서 AI를 한결 쉽게 완성할 수 있게 지원하여 각자의 AI 이니셔티브 진행 속도를 빠르게 해줍니다. Unified Data Analytics는 기업에서 다양한 사일로형 데이터 스토리지 시스템을 아우르는 데이터 파이프라인을 구축하는 데 도움이 되며 모델 구축을 위해 레이블이 지정된 Dataset를 준비하는 데 유익합니다. 이렇게 하면{...}
Up until two years ago, only giant technology companies had the resources and expertise to build products that fully depended on machine learning systems. Think Google powering ad auctions, TikTok recommending content, and Uber dynamically adjusting {...}
Updated: May 15, 2025About the authors:Mike Del Balso, CEO & Co-Founder of TectonWillem Pienaar, Creator of FeastData teams are starting to realize that operational machine learning requires solving data problems that extend far beyond the creati{...}
Data Observability is the practice of and processes involved in continuously monitoring the health, quality, reliability and performance across data systems—from ingestion pipelines to storage layers to downstream analytics—so organizations can detec{...}
What is OLTP?OLTP, or Online Transaction Processing, is a type of data processing that can efficiently handle large numbers of short, fast transactions with low latency. At its core, OLTP is designed to store and retrieve data quickly. It focuses on {...}
Author: Kevin Stumpf, Co-founder and CTOIn 2015, when we started rolling out Uber’s Machine Learning Platform, Michelangelo, we noticed an interesting pattern: 80% of the ML models launched on the platform powered operational machine learning use cas{...}
거대 언어 모델(LLM)이란 무엇인가요? 대규모 언어 모델(LLM)은 서술형 질의 응답부터 채팅, 콘텐츠 요약, 임의에 가까운 명령 실행, 번역, 콘텐츠 및 코드 생성에 이르기까지 다양한 작업에서 성능 및 역량 면에서 이전 모델을 크게 앞서는 새로운 차원의 자연어 처리(NLP) 모델입니다. LLM은 인간 언어의 패턴과 구조를 학습하기 위해 고급 머신 러닝 알고리즘을 사용하여 방대한 데이터 세트에서 학습됩니다. {...}
요약RAG(Retrieval Augmented Generation)이 어떻게 대규모 언어 모델(LLM)과 실시간 외부 데이터를 결합하여 더 정확하고 관련성 높은 결과를 만들어내는지 알아보세요.RAG가 고비용의 재학습 없이 환각(hallucination)을 줄이고, 도메인 특화 답변을 제공하는 등 특정 문제들을 어떻게 해결하는지도 확인해보세요.또한 고객 지원, 컴플라이언스, 엔터프라이즈 검색과 같은 산업 분야에서의 실제 활용 사례와 미래 동향을 {...}
공급망 관리란? 공급망 관리는 제품과 서비스를 효율적이고 효과적으로 생산하여 최종 고객에게 제공하는 것을 목표로 공급망의 운영을 계획, 구현 및 제어하는 프로세스입니다. 공급망 관리는 제품 및 서비스의 소싱, 조달, 생산 및 제공과 관련된 모든 활동의 조정 및 최적화뿐만 아니라 정보 흐름 및 금융 거래 관리를 포함합니다. 공급망 관리의 핵심 요소는 공급업체 관리, 재고 관리, 생산 계획 및 일정, 물류 및 운송 관리, 고객 서비스입니다. 효과적{...}
Databricks Delta의 Delta 파이프라인/구체화 뷰 Intro Delta 파이프라인은 데이터 파이프라인 수명 주기를 관리할 수 있도록 일련의 API와 UI를 제공합니다. 이것은 오픈 소스 프레임워크로 데이터 엔지니어링 팀에서 ETL 개발을 간소화하고 데이터 안정성을 개선하며 운영을 확장하는 데 도움이 됩니다. 데이터 변환을 위해 코딩하고 작업을 예약하는 방식이 아니라, 선언적 파이프라인을 구축하여 여러분이 원하는 데이터의 {...}
대체 데이터란 무엇입니까? 대체 데이터(Alternative data)는 남들이 사용하지 않는, 비일반적인 정보 출처를 가리키는 대안적(alternative) 데이터 소스를 사용해 수집한 정보입니다. 대체 데이터를 분석하면 업계의 평범한 데이터 소스가 제공할 수 있는 범위를 벗어난 인사이트를 얻을 수 있습니다. 다만 정확히 무엇을 대체 데이터로 간주해야 하는지는 업종마다 다릅니다. 이 개념의 정의는 우리 회사나 경쟁사가 이미 사용 중인 기존 데{...}
데이터 거버넌스란 무엇인가요? 데이터 거버넌스는 데이터가 가치를 창출하는지 확인하는 감독 행위이며, 비즈니스 전략을 지원하는 활동입니다. 데이터 거버넌스는 단순한 도구나 프로세스가 아닙니다. 사람, 프로세스, 기술, 데이터와 관련하여 비즈니스 목표와 목적을 지원하는 문화에 초점을 맞추고, 프레임워크를 통해 비즈니스 전략에 데이터 관련 요구 사항을 일치시킵니다. 데이터 거버넌스는 비즈니스에 어떤 장점을 제공할까{...}
데이터 공유란 무엇인가요? 데이터 공유 (Data sharing)는 하나 또는 여러 명의 고객에게 같은 데이터를 제공할 수 있는 기능입니다. 요즘 들어서는 어느 회사에서나 지속적으로 늘어나는 방대한 데이터 자체가 전략적 자산이 되었습니다. 데이터 공유는 - 사업 부서 내에서 뿐만 아니라 외부 소스에서 데이터를 소비하는 것 - 새로운 비즈니스 기회를 가능하게 하는 기술입니다. 데이터를 공유하면 파트너와 협업하고, 새로운 파트너십을 구축하고, 데이{...}
데이터 관리란 무엇입니까? 데이터 관리의 정의부터 살펴보겠습니다. 데이터 관리는 조직의 데이터를 수명 주기 전반에 걸쳐 구성, 처리, 저장, 보호, 분석하는 작업입니다. 효율적인 데이터 처리를 통해 모든 정보의 안전성과 신뢰성을 확보할 수 있습니다. 올바른 데이터 관리를 통해 효율성을 개선하고 비즈니스 성과에 대해 정확하게 파악함으로써 전략적 의사 결정을 내리고 법적 요건을 준수할 수 있습니다. 데이터 관리는 데이터 거버넌스 전략에 따라 데이터{...}
데이터 레이크하우스란 무엇입니까? 데이터 레이크하우스는 데이터 레이크가 가지고 있는 유연성, 비용 효율성, 그리고 대용량 지원 기능에 더해, 데이터 웨어하우스의 데이터 관리 기능과 ACID 트랜잭션을 통합한 새로운 형태의 오픈 데이터 관리 아키텍처로, 모든 데이터를 대상으로 비즈니스 인텔리전스(BI)와 머신 러닝(ML)을 지원합니다. {...}