가장 신뢰받는 홈 케어 플랫폼 구축
Thumbtack의 미션은 단순하지만 야심적입니다. 즉, 모든 서비스, 수리, 개선 작업을 안정적이고 안전하게 만들어 사람들이 자신감 있고 손쉽게 집을 관리할 수 있도록 지원하는 것입니다. 저희는 전국의 수백만 주택 소유자를 배관공과 전기 기술자부터 웰빙 서비스 제공업체와 이벤트 기획자에 이르기까지 30만 명 이상의 숙련된 전문가와 연결하여 지역 경제를 지원합니다. 기회는 방대하지만 그만큼 복잡성도 큽니다. 저희의 목표는 모든 고객에게 매번 일관되고 탁월한 결과를 보장하는 것입니다.
Thumbtack에서 GenAI 가치 실현하기
홈 서비스의 빠른 발전과 높아지는 고객 기대치로 인해 Thumbtack은 플랫폼을 지속적으로 발전시켜야 합니다. 데이터 볼륨, 예측 불가능한 고객 및 전문가의 요구, 확장되는 서비스 카테고리는 기술적, 조직적 과제를 제기합니다. Thumbtack은 파편화된 데이터 사이언스 및 엔지니어링 워크플로, 사일로화된 인프라, 그리고 개인정보 보호 및 안전에 대한 높은 기준이라는 과제에 직면했습니다.
이러한 과제를 해결하기 위해서는 영리한 알고리즘이나 더 빠른 인프라 이상의 것이 필요했습니다. 안전, 개인정보 보호, 협업을 핵심으로 하는 연결되고 신뢰할 수 있는 데이터 및 머신러닝 플랫폼이 필요했습니다. 우리의 접근 방식: Databricks를 기반으로 GenAI 생태계를 통합하여 실질적이고 측정 가능한 영향을 창출하는 것입니다.
신뢰할 수 있는 GenAI, 중앙 집중식 보안, 생산적인 데이터 사이언스
미세 조정된 LLM으로 신뢰와 안전성 향상
Thumbtack의 반자동 메시지 검토 파이프라인은 당사 디지털 신뢰 플랫폼의 근간입니다. 고객과 전문가 간의 각 메시지는 규칙 기반 엔진과 머신 러닝 모델에 의해 모두 검토됩니다. 일반적인 악용 사례는 간단한 규칙으로 포착할 수 있지만, 많은 미묘한 정책 위반은 포착할 수 없습니다. 컨볼루션 신경망(CNN) 기반의 초기 시스템은 비꼬는 말, 문맥 또는 암시적인 위협을 구별하는 데 어려움을 겪었 습니다.
Thumbtack의 자체 레이블링된 데이터로 대규모 언어 모델을 미세 조정한 것이 획기적인 변화를 가져왔습니다. 하이브리드 워크플로를 통해 CNN 모델이 명백히 문제가 없는 메시지를 사전 필터링하여 LLM의 작업량을 80% 줄입니다. 그러면 미세 조정된 LLM은 가장 까다로운 20%에 역량을 집중하여 탐지 정밀도를 3.7배, 재현율을 1.5배 높입니다. 매년 수천만 건의 메시지가 처리되어 대화의 안전성을 보장하고 정직한 상호작용을 유지하며 불필요한 비용을 방지합니다.
Databricks 기반 구축: 안전성, 표준화 및 유연성
이제 Thumbtack의 모든 고급 AI 및 신뢰 워크플로는 Databricks를 기반으로 구축된 통합 ML 플랫폼을 통해 실행됩니다. 주요 투자 및 안전 장치는 다음과 같습니다.
- 중앙 집중식 LLM 워크로드 관리: 모든 GenAI 워크로드를 Databricks에서 실행하여 공격 표면을 줄이고 일관된 거버넌스 모델을 유지합니다.
- 워크스페이스 격리: 가상 프라이빗 클라우드는 민감한 데이터가 보호되도록 보장하며, Terraform과 같은 도구를 통해 세분화된 권한이 관리됩니다. 당사는 안전한 권한 관리를 보장하는 방법의 일환으로 Unity Catalog를 사용하여 serverless 및 Databricks Genie가 BigQuery에 액세스할 수 있도록 합니다.
- 자동화된 개인 정보 보호: 오픈 소스와 내부적으로 개발된 스크러버는 데이터가 노트북, 모델, 파이프라인을 통과할 때 데이터에서 개인 식별 정보(PII) 및 기밀 정보를 제거합니다.
- 포괄적인 관찰 가능성 및 모니터링: 모든 모델, 노트북, API 라우트는 데이터 드리프트 및 개인 식별 정보(PII) 노출에 대해 추적됩니다. 시각화 도구는 위험한 데이터가 다운스트림 시스템으로 유출되지 않는다는 것을 확인합니다.
- 중앙 집중식 시크릿 및 아티팩트 관리: MLflow 및 시크릿 관리자를 통해 팀은 자격 증명을 안전하게 관리하고, 모든 모델의 버전을 관리하며, 생산적으로 협업할 수 있습니다. 더 이상 분산되고 취약한 방식으로 키나 라이브러리를 복사하여 붙여넣을 필요가 없습니다.
GenAI 운영 모범 사례
- 하이브리드 AI 워크로드: 프로덕션 서비스는 AWS에서 실행되고 분석은 Google Cloud에서 실행되지만 모든 GenAI 워크플로는 재현성을 위해 중앙 집중화되고 표준화됩니다.
- 재사용 및 효율성: MLflow와 노트북 추적을 통해 엔지니어링, SRE, 분석팀 전반에서 실험이나 솔루션을 공유, 비교, 확장할 수 있으며, 이 모든 과정은 일관된 개인 정보 보호 제어 하에 이루어집니다.
- 사전 예방적인 개인정보 보호 조치: Thumbtack은 오픈소스 PII 스크러버를 자사의 특정 요구 사항에 맞게 맞춤화하고 모든 계층에서 모니터링을 시행합니다. 업계 동향에 따르면 PII 관련 노트북 및 모델 침해 사고가 2022년 이후 300% 증가하여 이러한 보호 조치가 비즈니스에 매우 중요해졌습니다.
더 높은 안전성, 더 깊은 신뢰, 더 많은 혁신
- 마켓플레이스 규모: 이제 수백만 명의 미국 사용자와 30만 개 이상의 지역 서비스 비즈니스가 보안과 안정성을 우선시하는 플랫폼 내에서 상호 작용합니다.
- 우수한 메시지 필터링: 정밀도는 3.7배, 재현율은 1.5배 향상되었으며, LLM으로 가장 위험한 20%의 메시지만 처리하여 비용을 제어하는 동시에 모든 단계에서 개인 정보를 보호합니다.
- 협업 및 효율성: 중 앙 집중식의 재현 가능한 ML 워크플로는 수동 핸드오프를 없애고 신속한 팀 간 혁신을 가능하게 하여 데이터 사이언티스트, SRE, ML 엔지니어가 동기화하여 작업할 수 있도록 합니다.
- 규모에 대한 자신감: 강력한 기술 및 프로세스 제어를 통해 Thumbtack은 가장 신뢰할 수 있고 투명한 홈 서비스 마켓플레이스가 되겠다는 사명을 실현합니다.
Thumbtack이 GenAI 여정을 계속함에 따라 모든 팀은 더 안전하고 스마트한 홈 서비스 경험을 실험하고, 협업하고, 제공할 수 있는 역량을 갖추게 됩니다. 이 전략은 실제 영향에 기반을 두고 있으며, AI, 개인 정보 보호, 플랫폼 사고방식이 결합하여 전문가와 주택 소유자 모두에게 가치를 창출하는 방법을 보여줍니다.
Thumbtack의 Databricks Notebooks로 데이터 사이언스 및 AI 생산성 향상 2025 Data + AI Summit 발표를 시청하세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)