주요 컨텐츠로 이동
제품

튜토리얼: 오후에 할 수 있는 무료 Databricks 분석 프로젝트 3가지

데이터, 대시보드, SQL 및 AI 기반 인사이트를 포함한 세 가지 실제 포트폴리오 준비 분석 프로젝트를 통해 Databricks 무료 에디션에 대한 실습 중심 소개입니다.

작성자: 노아 서머펠드

  • Databricks 무료 에디션을 사용하여 오후에 완료할 수 있는 초보자 친화적인 분석 프로젝트 3가지 (신용카드 불필요).
  • AI/BI 대시보드, 자연어 쿼리, AI 함수 및 간단한 ML 예측을 사용하여 공개 데이터 세트를 가져오고 분석하는 방법.
  • 학생들이나 취업 준비생, BI 사용자가 실제 분석 결과물을 만들어 선보일 수 있도록 돕는 실용적이고 포트폴리오 준비가 된 예제 (대시보드 + 코드).

실제로 공유하고, 면접에서 이야기하고, 이력서나 포트폴리오에 추가할 수 있는 분석 프로젝트를 신용카드 없이 진행하고 싶으신가요?

Databricks 무료 에디션은 학생, 젊은 전문가, AI에 관심 있는 분들에게 선도 기업에서 사용하는 것과 동일한 데이터+AI 도구에 액세스할 수 있도록 제공하며, 개인 프로젝트에 적합한 컴퓨팅 성능과 Databricks의 AI/BI 대시보드 및 분석 도구를 제공합니다. 이 블로그에서는 공개 데이터 세트를 가져와서 분석하고, 완성도 높은 대시보드를 구축하고, 숨겨진 추세와 인사이트에 대한 명확한 스토리를 전달하는 과정을 안내합니다.

SQL과 Python으로 수준을 높이고 싶은 스프레드시트 파워 유저든, AI 기반 분석을 실험하는 숙련된 BI 엔지니어든, 이 프로젝트는 실질적인 결과물을 빠르게 구축할 수 있도록 설계되었습니다. 더 깊이 탐구하고 싶다면 Databricks의 무료 셀프 페이스 AI/BI 교육, 심층 AI/BI 작성자 과정을 탐색하거나 라이브 무료 온보딩 세션에 참여할 수 있습니다. 또한 수십 개의 다른 설치 가능한 공개 데모를 여기에서 액세스할 수 있습니다.

설정

아직 계정이 없다면 신용카드나 전화번호 없이 Databricks 무료 에디션에 여기에서 가입할 수 있습니다. 실험 및 학습을 위해 Databricks 무료 에디션을 영구적으로 무료로 사용할 수 있습니다. 참고: 무료 에디션은 개인 용도로만 사용되며 프로덕션 또는 상업적 용도로는 사용할 수 없습니다. 비즈니스를 위한 프로덕션 등급의 완전 지원 데이터 플랫폼을 찾고 있다면 Databricks에 여기로 문의하세요.

시작하기 전에 마지막 팁입니다. 오류가 발생하거나 막히는 부분이 있으면 Databricks Assistant(오른쪽 상단의 보라색 다이아몬드)가 디버깅, SQL 생성, 개념 설명에 매우 유용합니다.

Databricks Assistant

설정이 완료되었으니 시작해 봅시다!

1. (시뮬레이션된) 쿠키 베이커리 분석

쉬운 워밍업부터 시작하겠습니다. 소규모 비즈니스에서 운영 및 추세를 파악하는 것은 성공에 매우 중요합니다. 소규모 비즈니스 소유자는 최고 판매 제품 찾기, 최고 실적 지역 파악, 내년 예상 판매량 예측과 같은 인사이트를 찾고 싶을 수 있습니다.

모든 Databricks 워크스페이스에는 'samples' 카탈로그 아래에 사전 설치된 샘플 데이터 세트가 포함되어 있어 새로운 기능을 실험하는 데 좋은 출발점입니다. 특히 공급업체, 리뷰 및 거래에 대한 'bakehouse' 시뮬레이션 데이터 세트는 '우리' 소규모 비즈니스의 성과에 대한 스토리를 전달하는 연습에 좋습니다. Databricks의 왼쪽 메뉴 사이드바에 있는 '카탈로그' 부분에서 데이터 세트를 찾을 수 있으며, 이는 모든 워크스페이스의 핵심이며 분석에 사용할 수 있는 데이터 세트를 탐색할 수 있습니다.

이 경우 'samples' 카탈로그와 'bakehouse' 스키마를 확장하여 데이터를 찾을 수 있습니다.

Catalog

시작하려면 워크스페이스 왼쪽 상단에서 'new->Dashboard'를 클릭하여 새 대시보드를 만들고, 대시보드의 'data' 탭에서 아래와 같은 SQL을 사용하거나 UI 테이블 선택기에서 선택하여 테이블 중 하나를 선택합니다.

대시보드 캔버스에서 명확한 스토리를 전달하는 데 도움이 되는 시각화 및 텍스트를 추가합니다. 예를 들어, 구성(제품 믹스 등)에는 파이 차트, 추세(시간 경과에 따른 판매 등)에는 선 차트, 총 거래 또는 수익과 같은 주요 숫자를 강조하기 위한 카운터를 사용할 수 있습니다.

Bakehouse Sales dashboard

Bakehouse 데이터 세트에는 시뮬레이션된 고객 리뷰도 포함되어 있어 AI_Query() 함수를 사용하여 AI 지원 분석을 시도하기에 좋습니다. 이 함수는 AI 모델을 데이터에 직접 적용하여 새 데이터 세트를 생성합니다. 이 경우 각 리뷰를 긍정, 부정 또는 중립으로 분류합니다. 프롬프트를 수정하여 각 리뷰에 대한 자동 응답을 생성할 수도 있습니다(다른 어조로 실험해 볼 수도 있습니다).

다음 단계 챌린지: ai_classify() 또는 ai_gen()과 같은 다른 AI 함수를 적용할 방법을 찾을 수 있습니까? 대시보드 논평이나 리뷰에 대한 자동 응답을 생성하도록 AI_Query() 프롬프트를 조정할 수 있습니까? Kasey Uhlenhuth가 Data & AI Summit 2024에서 했던 것처럼 상위 리뷰를 기반으로 마케팅 문구를 자동으로 생성하는 에이전트를 구축하는 데까지 나아갈 수 있습니까?

2. 임대료 예측

주택 데이터는 분석 능력을 발휘하기에 좋은 영역입니다. 날씨와 금리처럼 강력한 상관관계가 많이 있으며, 공식(종종 정부) 출처에서 제공하는 고품질 데이터가 풍부합니다. 몇 가지 예로 Zillow Research의 공개 데이터 세트는 훌륭한 미국 주택 데이터를 제공하며, 영국 정부의 통계청은 고품질 인구 조사 데이터를 제공합니다. 일반적인 분석 질문은 '어떤 주/지역이 가장 높은 성장률을 보입니까?', '어디에 신규 건설이 가장 많습니까?', '주택 비용과 금리 간의 관계는 무엇입니까?'와 같은 것입니다.

제가 개인적으로 가장 좋아하는 것은 캐나다 정부의 오픈 거버넌트 포털에 있는 '임대료 문의 가격' 데이터 세트입니다. 이 데이터 세트에는 연도, 대도시 지역, 침실 수 등과 같은 속성이 포함된 광고된 임대료 세트가 포함되어 있습니다. 데이터에 연도가 개별 행으로 표시되어 필터링하고 분석하기 쉽다는 것을 알았습니다.

데이터를 워크스페이스로 가져오려면 포털에서 데이터 세트를 다운로드하고, zip 파일에서 데이터 파일('46100092.csv')을 추출한 다음, 워크스페이스 홈 페이지에서 '데이터 업로드' 버튼을 눌러 CSV 형식을 테이블로 구문 분석하는 작은 마법사를 진행합니다.

Housing data

기본적으로 결과 테이블의 이름은 기술적으로 명명된 파일과 동일하게 지정되므로 'Housing_data'와 같이 의미 있는 이름으로 변경할 기회를 주시하십시오. 생성되면 워크스페이스의 '카탈로그' 섹션을 사용하여 찾은 다음 '만들기' 버튼을 사용하여 데이터 세트에 대한 미리 채워진 골격이 있는 대시보드를 만듭니다.

dataset

시작 대시보드를 향상시키려면 분석에 맥락과 색상을 더하는 다른 슬라이스와 비교를 추가할 수 있습니다. 다른 도시의 평균 임대료 또는 성장률을 비교하거나 1베드룸 유닛과 다른 주택 유형의 비율을 조사하는 것을 고려할 수 있습니다. 가장 비싼 도시는 어디입니까? 사용자가 관심 있는 특정 도시 또는 유닛 유형으로 좁힐 수 있도록 필터를 추가하는 것을 잊지 마십시오.

경우에 따라 다른 SQL 쿼리를 작성하거나 다른 데이터를 통합해야 할 수 있습니다. Databricks Assistant(오른쪽 상단의 보라색 다이아몬드)가 도움이 될 수 있다는 것을 기억하십시오. 제 예에서는 Assistant에게 도시의 위도/경도를 추가하도록 요청하여 지도 보기를 만들 수 있었습니다.

starter dashboard

예측을 생성하려면 x축을 기준 날짜로, y축을 희망 가격(값)으로 하는 일반적인 꺾은선 그래프로 시작하세요. 그런 다음 사이드바에서 ‘예측 추가’ 버튼을 찾으세요. 그러면 Databricks의 ‘AI_Forecast()’ SQL 함수를 호출하는 새로운 예측 시각화가 대시보드 캔버스에 추가됩니다. 이 함수는 시계열 ML 모델을 호출하여 데이터에 적용합니다. 이 베타 기능은 아직 발전 중이지만(피드백을 환영합니다!), 실제 사용 사례에 ML을 적용하는 데 유용한 시작점이 될 수 있습니다. Databricks Assistant는 항상 새로운 데이터셋에 대한 사용자 지정 SQL 작성을 도와줄 수 있다는 점을 기억하세요.

sql dataset

다음 단계 챌린지: AI_Forecast()는 빠른 참조 예측에 훌륭하지만, 더 정확한 예측을 위해서는 다른 데이터 포인트를 결합하고 사용자 지정 머신러닝 알고리즘을 적용해야 합니다. Databricks 데모 사이트에서 완전한 솔루션이 어떻게 보일지(이 경우 풍력 터빈 유지 보수 예측) 확인할 수 있습니다.

3. 영화 촬영지 찾기

영화 배경으로 자주 사용되는 도시에서는 역사적인 건물이나 그림 같은 마을 주변에서 영화 촬영 트럭, 제작 보조원, 소규모 감독 부스를 우연히 발견할 수도 있습니다. 영화 제작사가 이러한 촬영을 위해 공공 장소를 차단하기 전에 촬영 허가를 받아야 하며, 이 허가는 정부 기관에서 공개 데이터셋으로 게시합니다.

미래 예측 허가는 없지만, 이러한 종류의 데이터셋 중 가장 좋은 예 중 하나는 뉴욕시의 오픈 데이터 포털에 있는 영화 허가 목록입니다. 촬영 유형(예: 뉴스, 장편 영화 또는 시리즈)과 촬영 시작 및 종료 시간, 지역, 우편 번호가 나열됩니다. 데이터셋을 분석하여 가장 일반적인 위치를 파악하고 운이 좋으면 스타가 일하는 모습을 엿볼 수 있습니다.

AI Forecast

이전 예시와 마찬가지로 Databricks에 데이터를 로드하는 것부터 시작해야 합니다. NYC의 오픈 데이터 포털을 사용하면 이전 연습에서 했던 것처럼 .csv 파일을 쉽게 다운로드하고 UI의 ‘데이터 업로드’를 통해 가져올 수 있습니다. 하지만, 이 데이터셋의 흥미로운 기능 중 하나는 매일 업데이트된다는 것입니다. 엔터프라이즈 환경에서 접근하는 방식과 훨씬 더 가까운 방식으로 데이터를 프로그래밍 방식으로 가져와 보겠습니다.

Databricks를 사용하면 노트북을 통해 필요한 Python을 매우 쉽게 실행할 수 있습니다. 이 경우 노트북을 만들고(왼쪽 상단 모서리에서 새 항목->노트북), 아래 코드를 복사하여 붙여넣고 실행하여 작업 공간에 CSV를 다운로드하고 테이블로 구문 분석합니다. 문제가 발생하면 언제든지 Databricks Assistant(보라색 다이아몬드)를 사용하여 도움을 받을 수 있다는 점을 기억하세요!

이 첫 번째 코드는 볼륨(임의 파일을 저장하는 곳)을 생성한 다음 Python URLLib 라이브러리를 사용하여 데이터셋을 다운로드합니다. 원하는 대로 카탈로그+스키마 이름을 자유롭게 수정하세요!

이 두 번째 코드는 원시 파일을 사용하여 대시보드에서 사용할 수 있는 ‘film_permits’라는 테이블을 생성합니다. 필요한 경우 Assistant에게 설명을 요청해 보세요.

성공적으로 작동했다면 작업 공간의 카탈로그 부분을 통해 테이블을 찾거나 노트북의 데이터 탐색기 사이드바(세 개의 모양 아이콘)를 열고 databricks_demo 카탈로그와 open_nyc 스키마를 확장하여 테이블을 볼 수 있습니다. 이미 열려 있었다면 ‘새로고침’ 버튼을 눌러야 할 수도 있습니다.

databricks demo catalog

참고: 코드에 문제가 발생하면 언제든지 코드 접근 방식을 포기하고 포털에서 데이터를 다운로드한 다음 작업 공간 홈 페이지의 ‘데이터 업로드’ 버튼을 통해 수동으로 가져올 수 있습니다.

테이블을 로드한 후에는 데이터를 분석하고 스토리를 제시할 차례입니다! 꺾은선 그래프로 추세를 확인하고 싶을 수 있습니다. 시리즈 또는 장편 영화에 대한 촬영이 더 많습니까? 시간이 지남에 따라 변화하고 있습니까? 또는 막대 또는 원형 차트로 분포를 고려할 수도 있습니다. 뉴스 또는 상업 영화 촬영 위치가 영화와 많이 겹칩니까?

지도 시각화를 구축하려고 하면 영화 허가에는 우편 번호가 있지만 AI/BI 대시보드 지도 시각화에는 위도 및 경도 속성이 필요하다는 것을 알 수 있습니다. 다행히 우편 번호>좌표 매핑 데이터셋은 온라인에서 쉽게 찾을 수 있으며 Assistant를 사용하여 대시보드에 가져올 수 있습니다. 이 오픈 데이터셋(Creative Commons 라이선스)을 다운로드한 다음 Assistant에게 결합된 쿼리를 생성하도록 요청하여 대시보드에 새 데이터셋을 만들 수 있습니다. 제가 사용한 프롬프트는 다음과 같습니다(특정 카탈로그 및 테이블 이름을 조정하세요).

그리고 이것이 최종 대시보드가 어떻게 보일 수 있는지에 대한 버전입니다!

AI/BI dashboard map visualization

챌린지: OpenNYC의 다른 어떤 데이터를 오버레이할 수 있을까요? 택시 또는 차량 공유 볼륨? 주요 랜드마크? 정치적으로 활동적이라면, 당신의 대의를 더 발전시킬 분석이 있습니까? 다른 도시와 주에서도 시애틀의 건물 에너지 벤치마킹 배출량 데이터셋과 같이 더 가까운 오픈 데이터셋을 제공합니다.

Databricks 네이티브 ‘ST 함수’를 사용하여 지리 공간 분석을 확장하여 가장 가까운 다른 지점을 조회할 수 있습니까?

마무리

분석에서 제가 가장 좋아하는 부분은 호기심을 쫓는 동안 얻는 깨달음이며, 이러한 예시들이 몇 가지 아이디어를 불러일으켰기를 바랍니다. 더 배우고 싶거나 이력서에 기재할 수 있는 인증을 향해 나아가기로 결정했다면, Databricks의 무료 자체 페이스 AI/BI 개요 교육 과정 여기에서, 더 심층적인 작성자 교육 과정 여기에서 이용하거나 무료 라이브 온보딩 수업에 참여할 수 있습니다! Databricks 문서 사이트도 특정 기능에 대한 참조로 훌륭한 장소입니다.

이 블로그의 예시 대시보드를 가져오고 싶다면 소스에 대한 이 리포지토리를 확인할 수 있습니다. AI/BI 대시보드 사양은 단순히 JSON이므로 파일을 다운로드하고 대시보드 홈 페이지의 ‘가져오기’ 드롭다운을 통해 가져옵니다.

AI/BI dashboard specs

마지막으로 Databricks 데모 센터에서 ML, 대시보딩, 에이전트 AI에 이르기까지 설치 가능한 수십 가지 데모를 찾을 수 있습니다. 새로운 것을 시도해 보거나 Databricks 커뮤니티와 함께 구축한 내용을 좋아하는 소셜 미디어 플랫폼에 공유하세요. 즐거운 코딩 되세요!

Databricks 무료 버전으로 구축 시작하기

신용카드 없이 무료 워크스페이스를 시작하고 오늘 이러한 프로젝트를 포트폴리오에 바로 사용할 수 있는 대시보드로 전환하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.