주요 컨텐츠로 이동

튜토리얼: 오후 시간에 할 수 있는 3가지 무료 Databricks 분석 프로젝트

데이터, 대시보드, SQL 및 AI 기반 인사이트가 모두 포함된 세 가지 실제 포트폴리오용 분석 프로젝트를 통해 Databricks 무료 버전을 직접 체험해 보세요.

Tutorial: 3 Free Databricks Analytics Projects You Can Do In An Afternoon

발행일: February 5, 2026

제품2 min read

작성자: Noah Sommerfeld

Summary

  • 신용카드 없이 Databricks 무료 버전을 사용하여 오후 시간 안에 완료할 수 있는 초보자용 분석 프로젝트 3가지.
  • AI/BI 대시보드, 자연어 쿼리, AI 함수, 가벼운 ML 예측을 사용하여 공개 데이터세트를 가져오고 분석하는 방법.
  • 학생, 구직자, BI 사용자가 선보일 수 있는 실제 분석 결과물을 구축하는 데 도움이 되는 실용적이고 포트폴리오에 바로 사용할 수 있는 예제(대시보드 + 코드).

신용카드 없이 공개적으로 공유하고, 면접에서 이야기하거나, 이력서나 포트폴리오에 추가할 수 있는 실제 분석 프로젝트를 원하시나요?

Databricks Free Edition은 학생, 젊은 전문가, AI에 관심 있는 사람들이 선도적인 기업에서 사용하는 것과 동일한 데이터+AI 도구에 액세스할 수 있도록 지원하며, 개인 프로젝트에 적합한 양의 compute를 제공합니다. Databricks의 AI/BI dashboard 및 분석 도구는 start하기에 좋은 지점입니다. 이 블로그에서는 일부 공개 데이터세트를 가져와 분석하고, 세련된 대시보드를 구축하고, 그 안에 숨겨진 트렌드와 인사이트에 대한 명확한 스토리를 전달하는 과정을 안내합니다.

SQL과 Python으로 수준을 높이려는 스프레드시트 고급 사용자이든, AI 기반 분석을 실험하는 숙련된 BI 엔지니어이든, 이 프로젝트들은 실질적인 결과물을 빠르게 만들 수 있도록 돕기 위해 설계되었습니다. 더 깊이 알아보고 싶다면 Databricks의 무료 자율 학습 AI/BI 교육, 심층 AI/BI 작성자 과정을 살펴보거나 실시간 무료 온보딩 세션에 참여할 수 있습니다. 또한 여기에서 설치 가능한 수십 개의 다른 공개 데모에 액세스할 수 있습니다.

설정

계정이 아직 없다면 신용카드나 전화번호 없이 여기에서 Databricks Free Edition에 가입할 수 있습니다. Databricks Free Edition을 통해 실험과 학습을 위해 Databricks에 영구적으로 무료로 액세스할 수 있습니다. 참고: Free Edition은 개인용이며 프로덕션 또는 상업용이 아닙니다. 비즈니스를 위한 프로덕션급의 완벽하게 지원되는 데이터 플랫폼을 찾고 있다면 여기에서 Databricks에 문의하세요.

시작하기 전 마지막 팁을 알려드리겠습니다. 오류가 발생하거나 막히는 부분이 있다면 Databricks Assistant(오른쪽 상단의 보라색 다이아몬드)가 디버깅, SQL 생성, 진행하면서 개념을 설명하는 데 매우 유용합니다.

이제 준비가 끝났으니 시작해 보겠습니다!

1. (시뮬레이션된) 쿠키 베이커리 분석

쉬운 워밍업으로 시작하겠습니다. 소규모 비즈니스의 경우 성공을 위해 운영 및 트렌드 동향을 파악하는 것이 매우 중요합니다. 소규모 사업자는 베스트셀러 제품을 찾고, 실적이 가장 좋은 지점을 파악하며, 내년 매출을 예측하는 등 다양한 인사이트를 원할 수 있습니다.

모든 Databricks 작업 공간에는 'samples' 카탈로그 아래에 사전 설치된 샘플 데이터 세트가 제공되며, 이는 새로운 기능을 실험하기 위한 훌륭한 출발점입니다. 특히 공급업체, 리뷰, 거래로 구성된 'bakehouse' 시뮬레이션 데이터세트는 '우리'의 소규모 비즈니스가 어떻게 운영되고 있는지에 대한 스토리를 전달하는 연습을 하기에 좋은 곳입니다. Databricks의 왼쪽 메뉴 사이드바에 있는 'catalog' 부분에서 데이터세트를 찾을 수 있습니다. 이는 모든 워크스페이스의 핵심이며 분석에 사용할 수 있는 데이터세트를 탐색할 수 있게 해줍니다.

이 경우 'samples' 카탈로그와 'bakehouse' 스키마를 확장하여 데이터를 찾을 수 있습니다.

시작하려면 작업 공간의 왼쪽 상단 모서리에 있는 'new->Dashboard'를 클릭하여 새 대시보드를 만든 다음, 대시보드의 'data' 탭 아래에서 아래와 같이 SQL을 사용하여 테이블 중 하나를 선택합니다(또는 UI 테이블 선택기에서 선택).

대시보드 캔버스에서 명확한 스토리를 전달하는 데 도움이 되는 시각화와 텍스트를 추가하세요. 예를 들어, 구성(예: 제품 믹스)에는 원형 차트를, 추세(예: 시간 경과에 따른 매출)에는 꺾은선형 차트를, 총 거래량이나 수익과 같은 주요 수치를 강조하는 데는 카운터를 사용할 수 있습니다.

Bakehouse 데이터 세트에는 시뮬레이션된 고객 리뷰도 포함되어 있어 AI_Query() 함수를 사용한 AI 지원 분석을 시도해 보기에 좋습니다. AI 모델을 데이터에 직접 적용하여 새로운 데이터 세트를 만듭니다. 이 경우 각 리뷰를 긍정, 부정 또는 중립으로 분류합니다. 프롬프트를 수정하여 각 리뷰에 대한 자동 답장을 생성할 수도 있습니다(다양한 어조를 요청하여 실험해 볼 수도 있습니다).

다음 단계 챌린지: ai_classify() 또는 ai_gen()과 같은 다른 AI 함수 를 적용하는 방법을 찾을 수 있나요? AI_Query() 프롬프트를 수정하여 대시보드 해설을 직접 만들 수 있나요? 리뷰에 대한 자동 답장은 어떠세요? Kasey Uhlenhuth가 Data & AI Summit 2024에서 했던 것처럼한 단계 더 나아가 인기 리뷰를 기반으로 마케팅 카피를 자동 생성하는 에이전트를 빌드할 수 있나요?

2. 임대료 예측하기

주택 데이터는 분석 능력을 키우기에 좋은 분야인 경우가 많습니다. 날씨와 이자율처럼 찾을 수 있는 강력한 상관관계가 많고, 공식(주로 정부) 출처에서 발표하는 고품질 데이터가 풍부합니다. 몇 가지 예로, Zillow Research의 공개 데이터세트 는 훌륭한 미국 주택 데이터를 제공하며, 영국 정부의 통계청(Office for National Statistics)은 고품질 인구 조사 데이터를 제공합니다. 일반적인 분석 질문으로는 '어느 주/도가 성장률이 가장 높은가?'와 같은 것들이 있습니다. '신규 건설이 가장 많은 곳은 어디인가?' 또는 '주택 비용과 이자율 사이의 관계는 무엇인가?'

제가 개인적으로 가장 좋아하는 것은 캐나다 정부의 열린 정부 포털에 있는'임대료 호가' 데이터 세트로, 여기에는 연도, 대도시 지역, 침실 수 등과 같은 속성을 가진 광고된 임대료 집합이 포함되어 있습니다. 데이터가 연도를 개별 행으로 배치한 방식 덕분에 필터링과 분석이 용이하다고 생각합니다.

워크스페이스로 데이터를 가져오려면 포털에서 데이터세트를 다운로드하고, zip 파일(‘46100092.csv’)에서 데이터 파일을 추출하고, 그런 다음 워크스페이스 홈페이지에서 '데이터 업로드' 버튼을 눌러 간단한 마법사를 통해 CSV 형식을 구문 분석하여 테이블로 만듭니다.

기본적으로 결과 테이블의 이름은 기술적으로 명명된 파일과 동일하게 지정되므로, 'Housing_data'와 같이 의미 있는 이름으로 변경할 기회를 잘 살펴보세요. 테이블이 생성되면 워크스페이스의 'catalog' 섹션을 사용하여 찾은 다음 'create' 버튼을 사용하여 데이터세트 주변에 기본 구조가 미리 채워진 대시보드를 만듭니다.

스타터 대시보드를 개선하려면 분석에 컨텍스트와 다채로움을 더하는 다른 슬라이스와 비교를 추가할 수 있습니다. 다른 도시의 평균 임대료나 성장률을 비교하거나 원룸 유닛과 다른 주택 유형의 비율을 조사하는 것을 고려할 수 있습니다. 가장 비싼 도시는 어디인가요? 사용자가 관심 있는 특정 도시나 유닛 유형에 집중할 수 있도록 필터를 추가하는 것도 잊지 마세요.

경우에 따라 다른 SQL 쿼리를 작성하거나 다른 데이터를 통합해야 할 수도 있습니다. Databricks Assistant(오른쪽 상단의 보라색 다이아몬드)가 도움이 될 수 있다는 점을 기억하세요. 제 예시에서는 지도 뷰를 만들 수 있도록 어시스턴트에게 도시에 대한 위도/경도를 추가하도록 요청했습니다.

예측을 생성하려면 x축을 기준 날짜로, y축을 호가(값)로 하는 일반 꺾은선형 차트로 시작한 다음 사이드바에서 'add forecast' 버튼을 찾으세요. 이렇게 하면 시계열 ML 모델을 호출하고 데이터에 적용하는 Databricks의 'AI_Forecast()' sql 함수를 사용하여 새로운 sql 데이터세트에 구축된 새로운 예측 시각화가 대시보드 캔버스에 추가됩니다. 이 베타 기능은 아직 발전 중이지만(피드백을 기다립니다!), 실제 사용 사례에 ML을 적용하기 위한 유용한 출발점입니다. 또한 Databricks Assistant는 언제든지 새로운 데이터세트에 대한 사용자 지정 SQL을 작성하는 데 도움을 줄 수 있다는 점을 기억하세요.

심화 과제: AI_Forecast()는 빠른 참조 예측에 유용하지만, 더 정확한 예측을 위해서는 다른 데이터 포인트를 결합하고 맞춤형 머신 러닝 알고리즘을 적용해야 합니다. 이 전체 솔루션이 어떤 모습일지(이 경우 풍력 터빈 유지보수 예측) Databricks 데모 사이트에서 확인할 수 있습니다.

3. 관찰할 영화 촬영 현장 찾기

영화 촬영 배경으로 자주 사용되는 도시에서는 운이 좋으면 역사적인 건물이나 그림 같은 시내 곳곳에서 촬영용 트럭, 제작 보조원, 작은 감독 부스를 우연히 마주칠 수 있습니다. 영화 제작사가 촬영을 위해 공공 장소를 통제하기 전에는 촬영 허가를 받아야 하며, 이 허가 정보는 정부 기관이 공개 데이터 세트에 게시합니다.

미래 촬영 허가에 대한 내용은 없지만, 이런 종류의 데이터 세트에 대한 가장 좋은 예시 중 하나는 뉴욕시 오픈 데이터 포털의 영화 촬영 허가 목록입니다. 여기에는 촬영 유형(예: 뉴스, 장편 영화, 시리즈)과 함께 촬영 시작 및 종료 시간, 자치구, 우편번호가 나열되어 있습니다. 데이터 세트를 다각도로 분석하여 가장 흔한 촬영지를 파악하고 운이 좋으면 촬영 중인 스타를 엿볼 수도 있습니다.

이전 예제와 마찬가지로 데이터를 Databricks로 로드하는 것부터 시작해야 합니다. NYC의 오픈 데이터 포털에서 .csv를 쉽게 다운로드할 수 있습니다. 그리고 이전 연습 문제에서 했던 것처럼 UI에서 '데이터 업로드'를 통해 가져올 수 있습니다. 하지만 이 데이터 세트의 한 가지 흥미로운 특징은 매일 업데이트된다는 것입니다. 예약된 일정에 따라 실행할 수 있도록 프로그래밍 방식으로 해당 데이터를 가져와 보겠습니다. 이것이 엔터프라이즈 환경에서 접근하는 방식과 훨씬 더 가깝습니다.

Databricks를 사용하면 노트북을 통해 필요한 Python을 정말 쉽게 실행할 수 있습니다. 이 경우 노트북(왼쪽 상단 코너의 새로 만들기->노트북)을 만들고 아래 코드를 복사하여 붙여넣은 다음, 실행을 눌러 워크스페이스에 CSV를 다운로드하여 테이블로 파싱하세요. 문제가 발생하면 언제든지 Databricks Assistant(보라색 다이아몬드 아이콘)를 사용하여 도움을 받을 수 있다는 점을 기억하세요!

이 첫 번째 코드 조각은 볼륨(임의 파일을 저장할 공간)을 생성한 다음 Python URLLib 라이브러리를 사용하여 데이터세트를 다운로드합니다. 자신의 스타일에 맞게 카탈로그+스키마 이름을 자유롭게 수정하세요!

이 두 번째 코드 조각은 원시 파일을 가져와 대시보드에서 사용할 수 있는 'film_permits'라는 테이블을 생성합니다. 필요한 경우 Assistant에게 설명을 요청해 보세요.

성공적으로 작동했다면 워크스페이스의 카탈로그 부분이나 노트북에서 데이터 탐색기 사이드바(세 가지 모양 아이콘)를 연 다음, databricks_demo 카탈로그와 open_nyc 스키마를 확장하여 테이블을 찾을 수 있습니다. 이미 열려 있는 경우 '새로 고침' 버튼을 눌러야 할 수도 있습니다.

알림: 코드에 문제가 발생하는 경우, 언제든지 코드 접근 방식을 포기하고 포털에서 데이터를 다운로드한 후 작업 공간 홈페이지의 '데이터 업로드' 버튼을 통해 수동으로 데이터를 가져올 수 있다는 점을 기억하세요.

테이블이 로드되면 이제 데이터를 다양한 관점에서 분석하고 스토리를 전달할 차례입니다! 꺾은선형 차트로 추세를 확인할 수 있습니다. 시리즈물과 장편 영화 중 어느 촬영이 더 많을까요? 시간이 지남에 따라 변하고 있나요? 또는 막대 차트나 원형 차트로 분포를 생각해 볼 수 있습니다. 뉴스와 상업용 촬영 장소는 영화 촬영 장소와 많이 겹치나요?

지도 시각화를 빌드하려고 하면 영화 촬영 허가에는 우편번호가 있지만 AI/BI 대시보드 지도 시각화에는 위도 및 경도 속성이 필요하다는 것을 알 수 있습니다. 다행히 우편번호<>좌표 매핑 데이터 세트는 온라인에서 쉽게 찾을 수 있으며 Assistant를 사용하여 대시보드로 가져올 수 있습니다. Creative Commons 라이선스가 부여된 이 공개 데이터세트 를 다운로드한 다음 대시보드에 새 데이터세트를 만들고 Assistant에 결합된 쿼리를 생성하도록 요청할 수 있습니다. 제가 사용한 프롬프트는 다음과 같습니다(특정 카탈로그 및 테이블 이름에 맞게 조정하세요).

최종 대시보드가 어떤 모습일지에 대한 버전은 다음과 같습니다!

과제: OpenNYC의 다른 어떤 데이터를 오버레이할 수 있을까요? 택시나 차량 공유 이용량은 어떨까요? 주요 랜드마크는요? 정치적으로 활발하게 활동하는 경우, 자신의 대의에 도움이 될 만한 분석이 있을까요? 다른 도시와 주에서도 시애틀의 건물 에너지 벤치마크 배출량 데이터세트처럼 사용자에게 더 친숙할 수 있는 유사한 공개 데이터세트를 제공합니다. 

Databricks 네이티브 ‘ST Functions’를 사용하여 공간 분석을 확장하고 가장 가까운 다른 지점을 조회할 수 있나요?

마무리

분석에서 제가 가장 좋아하는 부분은 호기심을 좇다가 얻게 되는 깨달음의 순간이며, 이 예시들이 몇 가지 아이디어를 촉발했기를 바랍니다. 더 자세히 배우고 싶거나 이력서에 기재할 수 있는 자격증 취득을 목표로 하기로 결정했다면, Databricks의 무료 자율 학습 AI/BI 개요 교육 과정은 여기에서, 더 심층적인 작성자 교육 과정은 여기에서 이용하거나 무료 라이브 온보딩 클래스에 참여할 수 있습니다! Databricks 문서 사이트 역시 특정 기능에 대해 참조하기 좋은 곳입니다

이 블로그의 예제 대시보드를 가져오려면 이 리포지토리에서 소스를 확인할 수 있습니다. AI/BI 대시보드 사양은 json일 뿐이므로, 파일을 다운로드하고 대시보드 홈페이지의 'import' 드롭다운을 통해 가져오세요.

마지막으로 Databricks 데모 센터에서 ML부터 대시보드, 에이전트 AI에 이르기까지 설치 가능한 수십 개의 데모를 찾을 수 있습니다.새로운 것을 시도해 보거나, 즐겨 사용하는 소셜 미디어 플랫폼에서 여러분이 빌드한 것을 Databricks 커뮤니티와 공유해 보세요. 해피 해킹!

Databricks Free Edition으로 구축 시작하기

신용카드 없이 무료 워크스페이스를 시작하고, 오늘 바로 이 프로젝트들을 포트폴리오용 대시보드로 만들어 보세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks