주요 컨텐츠로 이동

Denny의 2025년 Data + AI Summit 최고의 세션 추천

데이터 및 AI 전문가, 오픈 소스 기여자 및 연구원들이 진행하는 700개 이상의 기술 세션 중에서 선택하세요

Denny’s top session picks for Data + AI Summit 2025

Published: May 19, 2025

이벤트1분 이내 소요

작성자: Denny Lee

Summary

  • 2025년 Data + AI Summit에서 700개가 넘는 기술 세션 중에서 선택하세요, 오픈 소스에 대한 큰 선택권이 포함되어 있습니다.
  • Delta Lake, Apache Iceberg™, 에이전트 시스템, MLflow, Apache Spark™, Unity Catalog, DLT, DSPy, LangChain, PyTorch, dbt, Trino 및 Databricks에서 최신 발전을 살펴보세요.
  • 플래시 세일 - 한 주 동안만, 5월 23일까지 교육에 50% 할인. 강좌는 이제 각각 $212.50입니다. 체크아웃 시 TRNGTM0Q 코드를 사용하세요.

Data + AI Summit 2025 가 몇 주 앞으로 다가왔습니다! 올해는 700개가 넘는 세션 중에서 선택할 수 있는 가장 큰 선택권을 제공하고 있습니다. 샌프란시스코에서 직접 참여하거나 가상으로 참여하려면 등록하세요.

오픈 소스에 뿌리를 둔 경력을 가진 저는 기업 전략에 오픈 기술과 형식이 점점 중요해지는 것을 직접 보았습니다. Apache Spark™ 및 MLflow에 오랫동안 기여하고, Delta Lake 및 Unity Catalog의 유지 관리자 및 커미터로 활동하며, 최근에는 Apache Iceberg™에 기여하면서 업계에서 가장 뛰어난 사람들과 함께 일할 기회를 가졌습니다.

올해의 세션에서는 오픈 소스와 AI의 교차점에 초점을 맞추고 있으며, 특히 다중 모드 AI에 대한 관심이 있습니다. 특히, Delta Lake 및 Iceberg와 같은 오픈 테이블 형식과 Unity Catalog를 통한 통합 거버넌스가 실시간, 신뢰할 수 있는 AI 및 분석의 다음 파도를 이끌고 있다는 점입니다.

나의 최고의 선택

다가오는 Apache Spark 4.1: 통합 분석의 다음 장

Apache Spark™는 오랫동안 간단하면서도 강력한 API, 풍부한 생태계, 최고 수준의 성능을 결합한 선도적인 오픈 소스 통합 분석 엔진으로 인정받아 왔습니다. 다가오는 Spark 4.1 릴리스에서는 커뮤니티가 대규모 클러스터 배포와 로컬 노트북 개발 모두에서 Spark를 뛰어나게 만들기 위해 Spark를 재상상합니다. 다음 사람들에게 듣고 질문하세요:

  • Xiao Li 는 Databricks의 엔지니어링 디렉터이며, Apache Spark 커미터 및 PMC 멤버입니다.
  • DB Tsai 는 Databricks Spark 팀의 엔지니어링 리더입니다. 그는 Apache Spark Project Management Committee (PMC) 멤버이자 커미터입니다.
     

Iceberg Geo Type: 대규모로 지리공간 데이터 관리 변환

지리공간은 레이크하우스 형식에 점점 더 중요해지고 있습니다. Wherobots Inc.의 공동 창립자이자 최고 아키텍트인 Jia Yu와 Databricks의 소프트웨어 엔지니어인 Szehon Ho로부터 Apache Iceberg™의 최신 지리공간 데이터 유형에 대해 배워보세요.
 

클라우드 네이티브 데이터 수집으로 많은 돈을 절약합시다!

Scribd의 R. Tyler Croy, Delta Lake 유지 관리자, 그리고 delta-rs의 창시자는 AWS Aurora, SQS, Kinesis Data Firehose 등에서 데이터를 수집하기 위해 Scribd가 채택한 클라우드 네이티브 아키텍처에 대해 자세히 설명할 것입니다. kafka-delta-ingest, oxbow, Airbyte와 같은 오픈 소스 도구를 사용하여 Scribd는 이벤트 기반, 신뢰할 수 있고, 가장 중요하게는 더 저렴한 수집 아키텍처를 재정의했습니다. 작업이 필요 없습니다!

이 세션에서는 레이크하우스 아키텍처의 가치 제안과 Rust/Arrow/Python 생태계 내의 비용 효율성에 대해 자세히 살펴볼 것입니다. 미리 보기를 추천하는 몇 가지 비디오:

 

Daft와 Unity Catalog: 다중 모달/AI 네이티브 레이크하우스

다중 모드 AI는 데이터가 단순히 테이블 이상이라는 사실로 인해 풍경을 근본적으로 바꿀 것입니다. 작업 흐름은 이제 종종 문서, 이미지, 오디오, 비디오, 임베딩, URL 등을 포함합니다.

이 세션에서는 Jay Chia, Eventual의 공동 창립자가 Daft + Unity 카탈로그가 인증, 권한 부여 및 데이터 계보를 통합하는 방법을 보여줄 것입니다. 이는 Daft, 인기 있는 다중 모드 프레임워크와 함께 거버넌스의 전체적인 시각을 제공합니다.
 

빅 데이터와 AI 연결: 다중 모드 AI 데이터 파이프라인을 위한 PySpark 강화

PySpark는 오랫동안 대용량 데이터 처리의 핵심이었지만, 다중 모달 AI와 벡터 검색의 등장은 그 이상의 도전을 제기합니다. Spark의 새로운 Python 데이터 소스 API는 다중 모드 Lance 형식에 기반한 신흥 AI 데이터 레이크와의 통합을 가능하게 합니다.

이 세션에서는 Lance 형식이 어떻게 작동하는지, 그리고 다중 모드 AI 데이터 파이프라인에 중요한 구성 요소인 이유에 대해 자세히 알아볼 것입니다. Allison Wang, Apache Spark™ 커미터, 그리고 Li Qiu, LanceDB 데이터베이스 엔지니어 및 Alluxio PMC 멤버는 Apache Spark (PySpark)와 LanceDB를 결합하여 다중 모드 AI 데이터 파이프라인을 발전시키는 방법에 대해 자세히 설명할 것입니다.
 

DSPy 개발 간소화: MLflow를 사용한 추적, 디버깅 및 배포

Chen Qian, Databricks의 선임 소프트웨어 엔지니어는 MLflow를 DSPy와 통합하여 DSPy 개발에 완전한 관찰 가능성을 제공하는 방법을 보여줄 것입니다.

MLflow의 추적 및 자동 로깅 기능을 사용하여 DSPy 모듈 호출, 평가, 최적화를 추적하는 방법을 볼 수 있습니다. 이 두 가지 도구를 결합하면 DSPy 워크플로우를 디버그하고, 반복하고, 이해하는 것이 더 쉬워지며, DSPy 프로그램을 end-to-end로 배포할 수 있습니다.
 

코드 완성에서 자율 소프트웨어 엔지니어링 에이전트까지

Kilian Lieret, 프린스턴 대학의 연구 소프트웨어 엔지니어는 최근 Data Brew 비디오캐스트 에 게스트로 출연하여 소프트웨어 엔지니어링에서 AI를 평가하고 향상시키는 새로운 도구에 대한 흥미진진한 토론을 진행했습니다.

이 세션은 이 대화를 확장하여 Kilian이 SWE-bench (벤치마킹 도구)와 SWE-agent (에이전트 프레임워크), 개발자를 위한 에이전트 AI의 현재 최전선, 그리고 AI 에이전트로 실험하는 방법에 대해 자세히 설명할 것입니다.
 

SLMs와 미니 에이전트를 사용하여 고정밀 AI 시스템 구성

항상 놀라운 Sharon Zhou, Lamini의 CEO이자 창립자는 작은 언어 모델(SLMs)과 미니 에이전트를 사용하여 Mixture of Memory Exports (즉, MoME가 가장 잘 알고 있습니다!)를 사용하여 환영을 줄이는 방법에 대해 논의합니다.

이 재미있는 Data Brew by Databricks 에피소드에서 Sharon이 주연을 맡아 MoME에 대해 조금 더 알아보세요: 기억 내보내기의 혼합.
 

트레이드오프를 넘어서: 테이블 데이터 합성에서의 차등 프라이버시

차등 프라이버시는 데이터 뒤의 개인의 프라이버시를 보호하는 수학적 보장을 제공하는 중요한 도구입니다. 이 강연에서는 Gretel.ai(이제 NVIDIA의 일부)의 Lipika Ramaswamy 가 Gretel Navigator를 사용하여 원본 데이터에 대한 높은 충성도와 다양한 데이터 세트에서의 하류 작업에 대한 높은 유용성을 유지하는 차등 프라이버시 합성 데이터를 생성하는 방법을 탐색합니다.

이 주제에 대한 좋은 사전 읽기 자료:

문서 작업 흐름을 자동화하기 위한 지식 에이전트 구축
LLM 에이전트에 대한 가장 큰 약속 중 하나는 비구조화된 데이터에 대한 모든 지식 작업을 자동화하는 것입니다 - 우리는 이를 "지식 에이전트"라고 부릅니다. Jerry Liu, LlamaIndex의 창립자는 문서 작업 흐름을 자동화하기 위한 지식 에이전트를 만드는 방법에 대해 설명합니다. 때때로 복잡하게 구현될 수 있는 것을, Jerry는 기본적인 비즈니스 프로세스에 대해 간소화된 흐름으로 만드는 방법을 보여줍니다.

명예 언급!

반합성 데이터를 사용한 건강 관리 분야에서의 AI 모델 구축: Holden Karau, Fight Health Insurance INC의 공동 창립자는 AI를 사용하여 건강 관리 문서화의 홍수와 싸우는 방법에 대해 설명합니다.

에이전트 유니버스에서의 Delta Lake 스트리밍에 대한 히치하이커 가이드: Scott Haines, Nike의 뛰어난 소프트웨어 엔지니어는 Delta Lake (그리고 일반적으로 레이크하우스) 주변의 강력한 기반과 스트리밍이 에이전트 시스템으로의 밀어내기에 얼마나 중요한지에 대해 설명합니다.

AMA들

Simon + Denny - 필터링되지 않고, 대본 없음: Simon Whiteley와 함께 돌아왔으니, 질문을 가져오세요, 우리는 답변을 줄 수 있기를 바랍니다!

Apache Spark AMA: Apache Spark™에 대한 질문을 가지고 오세요 - 우리는 답변을 준비하고 있습니다!

Rust와 레이크하우스 형식 AMA: Rustacean으로서, 우리는 Apache Iceberg™와 Delta Lake과 같은 레이크하우스 형식이 다음 세대의 데이터 처리 엔진을 만드는 데 어떻게 도움이 되는지에 대해 자세히 알아보고 싶습니다.

샌프란시스코에서 여러분을 만나기를 바랍니다. 지금 등록하세요 이 세션들을 놓치지 마세요, 그 외에도 많은 것들이 있습니다!

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?