주요 컨텐츠로 이동
Engineering blog

Translated by HaUn Kim - Original Blog Post

브랜드 리스크의 중요성은 무엇일까요?

'위험 관리'라는 개념과 관련해 금융 서비스 기관(FSI)은 오랫동안 바젤 협약의 자본 요건 지침과 프레임워크를 참고해왔습니다. 그러나 이 지침들은 평판 위험에 대해 언급하지 않으며, 조직들은 수년 동안 평판 위험 같은 비재무적 위험을 관리하고 측정하는 데 명확한 방법론이 부족했습니다. 최근 환경, 사회, 거버넌스(ESG)의 중요성이 부각되면서 기업들은 평판과 현실 사이의 간극을 좁히고 이해관계자 및 고객의 변화하는 신념과 기대에 부응할 수 있는 절차를 마련해야 할 필요성이 커졌습니다.

 

For a FSI, reputation is arguably its most important asset.

 

FSI에 있어 평판은 가장 중요한 자산 중 하나입니다.

예를 들어, 골드만삭스는 그들의 유명한 경영 원칙 중 "우리의 자산은 사람, 자본, 그리고 평판이다. 이 중 어느 하나라도 손상되면 가장 회복하기 어려운 것은 바로 평판이다"라고 명시하고 있습니다. 상업 은행의 경우, 소비자 불만과 피드백에 적극적으로 대응하는 브랜드는 경쟁사보다 법적, 상업적, 평판 위험을 더 효과적으로 관리할 수 있습니다. American Banker는 이 기사를 통해 급변하는 시장 환경에서 금융기관이 직면한 비재무적 위험, 특히 평판 위험의 중요성을 재확인했습니다.

고객 신뢰를 얻기 위한 과정에서는 브랜드 평판에 부정적 영향을 미칠 수 있는 문제에 대한 인사이트를 찾기 위해 다양한 채널을 통해 방대한 양의 데이터를 활용하는 것이 포함됩니다. 고객 만족을 높이는 데 있어 데이터의 중요성에도 불구하고, 대다수 조직은 데이터 개인정보 보호, 규모 및 모델 거버넌스와 같은 금융 서비스 업계에서 흔히 발생하는 근본적인 문제를 해결하는 플랫폼 구축에 어려움을 겪고 있습니다.

이 블로그 포스트에서는 데이터브릭스의 통합 데이터 분석 플랫폼의 강력한 기능을 활용하여 이러한 도전을 극복하고 인사이트를 얻으며 개선 조치를 취하는 방법을 소개하겠습니다. GDPR 및 CCPA 규정을 쉽게 준수할 수 있도록 설계된 오픈 소스 스토리지 계층인 Delta Lake을 통해 데이터 레이크에 안정성과 성능을 제공하고, 머신러닝 런타임관리형 MLflow는 데이터 사이언티스트와 비즈니스 분석가가 인기 있는 오픈 소스 머신러닝 및 거버넌스 프레임워크를 활용해 최첨단 머신러닝 모델을 구축하고 배포할 수 있도록 지원하는 데이터브릭스 통합 분석 플랫폼의 일부입니다. 이 블로그 포스트에서는 평판 리스크에 대응하는 접근 방식을 통해 금융 기관이 브랜드 인식을 측정하고 여러 이해관계자와 협력하여 고객 만족도와 신뢰도를 높일 수 있는 방법을 다룹니다.

Databricks Unified Risk Architecture for assessing reputational risk.

데이터브릭스는 평판 리스크를 평가하기 위한 통합 리스크 아키텍처를 제공합니다.

이 블로그 게시물은 평판 위험 관리를 현대화하기 위해 해결해야 할 여러 데이터 엔지니어링 및 데이터 사이언스 과제를 다루는 노트북을 소개합니다:

  • Delta Lake를 사용해 익명화된 고객 불만을 실시간으로 수집하기
  • Koalas를 사용해 대규모 고객 피드백 탐색하기
  • AI와 오픈 소스를 활용해 사전 예방적 리스크 관리 지원하기
  • SQL 및 비즈니스 인텔리전스(BI)/머신러닝(ML) 보고서를 사용해 리스크 및 옹호 팀에 AI를 대중화하기

클라우드 스토리지 활용

오브젝트 스토리지는 기존 데이터 웨어하우스에 비해 저렴한 비용으로 방대한 양의 데이터를 저장할 수 있는 큰 이점을 조직에 제공했습니다. 그러나 이 과정에서 운영 오버헤드가 발생합니다. 데이터가 급증함에 따라 손상되거나 신뢰할 수 없는 데이터 포인트로 인해 발생하는 불일치를 나중에 수정하기 어려울 수 있기 때문에 데이터 관리가 큰 도전이 되곤 합니다.

이는 많은 금융 기관들이 AI 여정을 시작하면서 더 빠른 인사이트를 얻고 수집된 데이터를 최대한 활용하기 위해 직면하는 주요 문제입니다. 평판 리스크를 관리하기 위해서는 조직이 고객 만족도와 브랜드 인식을 측정하기 위해 많은 노력을 기울여야 하며, 고객 신뢰를 유지하기 위해서는 데이터와 AI 접근 방식을 취하며, 방대한 양의 고객 데이터를 안전하게 저장하고 개인 식별 정보(PII)가 악용되지 않도록 보장하며, PCI-DSS 규정을 완벽하게 준수할 수 있는 인프라가 필요합니다. 데이터를 안전하게 보호하고 저장하는 것은 시작에 불과하지만, 수백만 건의 불만 사항을 대규모로 처리하고 처방적 인사이트를 제공하는 모델을 구축하는 것이 성공적인 구현의 핵심입니다.

 

통합 데이터 분석 플랫폼인 데이터브릭스는 대량의 데이터를 수집하고 처리하는 것은 물론 사용자가 대규모로 AI를 활용하여 평판과 고객 인식에 대한 인사이트를 얻을 수 있도록 지원합니다. 이 블로그 게시글에서는 소비자금융보호국(CFPB)의 데이터를 수집하고 데이터 파이프라인을 구축해서 델타 레이크와 코알라 API를 활용해 소비자의 제품 피드백을 더 효과적으로 탐색하는 방법을 소개할 것입니다. 오픈 소스 라이브러리를 이용하여 다양한 제품과 서비스에 대한 고객 불만의 심각도를 분류하고 측정하는 ML 모델을 구축하고 배포할 예정입니다. 일괄 처리와 스트리밍을 결합해 불만 사항을 분류하고 실시간으로 적합한 고객 지원 팀으로 전달함으로써 접수되는 불만을 더 잘 관리하고 고객 만족도를 향상시킬 수 있습니다.

골드 데이터 표준 수립

데이터브릭스는 이미 클라우드 공급업체가 제공하는 모든 보안 도구를 활용하고 있으며, Apache SparkTM와 Delta Lake는 데이터 격리 및 스키마 적용과 같은 추가적인 개선 기능을 통해 데이터의 품질을 시기적절하게 유지하고 보호할 수 있습니다. 우리는 스키마를 활용해 불만 데이터를 읽고 Delta Lake에 저장하기 위해 Spark를 사용할 예정입니다. 이 과정에서 스키마 불일치, 데이터 손상 또는 구문 오류로 인해 발생할 수 있는 문제 레코드를 별도 위치에 저장해 나중에 일관성 검사를 위해 조사할 수 있도록 할 것입니다.

df = spark.read
  .option("header", "true")
  .option("delimiter", ",")
  .option("quote", """)
  .option("escape", """)
  .option("badRecordsPath", "/tmp/complaints_invalid")
  .schema(schema)
  .csv("/tmp/complaints.csv")

PII와 같은 민감한 데이터가 주요 위협이고 모든 기업의 공격 표면을 확대한다는 것은 널리 알려진 사실입니다. 가명 처리와 함께 ACID 트랜잭션 기능 및 시간에 따른 데이터 보존 정책을 시행함으로써, Delta Lake를 사용할 때 데이터 컴플라이언스를 유지하는 데 도움이 됩니다. 그러나 각 불만 사항이 음성 통화, 웹 채팅, 이메일의 녹취록인 경우 고객의 이름과 성 등 개인 정보가 포함될 수 있으며, 소비자의 '잊혀질 권리'(예: GDPR 준수)와 같은 비정형 데이터에서는 이것이 진정한 도전이 됩니다. 아래 예에서는 조직이 자연어 처리(NLP) 기술을 활용해 고도로 구조화되지 않은 기록을 익명화하면서도 의미를 보존하는 방법(즉, 이름 언급을 대체해도 소비자 불만의 본질은 유지해야 함)을 보여줍니다.

조직은 spaCy와 같은 오픈 소스 라이브러리를 사용하여 고객 및 상담원의 이름뿐만 아니라 사회보장번호(SSN), 계좌 번호 및 기타 PII(예시에서와 같이 이름 등)와 같은 특정 엔티티를 추출할 수 있습니다.

Example of how Databricks’ reputational risk framework uses Spacy to highlight entities

데이터브릭스 평판 위험 프레임워크에서 Spacy를 사용하여 엔티티를 강조 표시하는 방법의 예시입니다.

아래 코드에서는 자연어 처리 기술을 기반으로 하는 간단한 익명화 전략이 사용자 정의 함수(UDF)로 어떻게 활성화되는지 보여 줍니다.

def anonymize_record(original, nlp):
  doc = nlp(original)
  for X in doc.ents:
    if(X.label_ == 'PERSON'):
      original = original.replace(X.text, "John Doe")
  return original
    
@pandas_udf('string')
def anonymize(csi: Iterator[pd.Series]) -> Iterator[pd.Series]:

  # load spacy model only once
  spacy.cli.download("en_core_web_sm")
  nlp = spacy.load("en_core_web_sm")
  
  # Extract organisations for a batch of content 
  for cs in csi:
    yield cs.map(lambda x: anonymize_record(x, nlp))

NLP를 통해 각 단어(예: 이름)의 의미적 가치를 이해함으로써 조직은 아래 예시와 같이 비정형 데이터에서 민감한 정보를 쉽게 난독화할 수 있습니다.

With Databricks’ approach to reputational risk assessment, more advanced entity recognition models can be applied to obfuscate sensitive information from an unstructured dataset.

Databricks의 평판 위험 평가 접근 방식을 사용하면 고급 엔터티 인식 모델을 적용하여 비정형 데이터 세트에서 민감한 정보를 난독화할 수 있습니다.

이 방법은 데이터 사이언티스트와 비즈니스 분석가가 추가 분석을 위해 사용할 대상 델타 테이블의 최신 정보 상태를 지속적으로 업데이트하고 유지할 수 있도록, 일괄 처리뿐만 아니라 여러 데이터 스트림을 실시간으로 처리할 수 있는 확장성을 제공합니다.

Databricks increases data controls and quality in real time, enabling data engineers, data scientists, and business analysts to collaborate on a unified data analytics platform

Databricks는 데이터 엔지니어, 데이터 사이언티스트, 비즈니스 분석가가 통합 데이터 분석 플랫폼에서 협업할 수 있도록 실시간으로 데이터 제어 및 품질을 향상시킵니다.

데이터 사이언스에 대한 이러한 실용적인 접근 방식은 조직이 기존의 데이터 사이언스 활동과 일상적인 데이터 운영 사이에 존재하는 분리를 없애고 모든 인물을 동일한 데이터 및 분석 플랫폼으로 통합해야 할 필요성을 보여줍니다.

Measuring brand perception and customer sentiment

더 나은 평판 관리 시스템을 통해 금융기관은 기관에서 제공하는 특정 상품과 서비스에 대한 고객 피드백을 추적하고 분리하여 우수한 고객 경험을 구축할 수 있습니다. 이는 문제 영역을 발견하는 데 도움이 될 뿐만 아니라 내부 팀이 보다 적극적으로 문제를 겪고 있는 고객에게 접근하는 데도 도움이 됩니다.

데이터를 더 잘 이해하기 위해 데이터 사이언티스트들은 전통적으로 대규모 데이터 세트를 샘플링해 더 작은 세트를 생성하고, 이를 Pandas 데이터 프레임이나 Matplotlib 시각화와 같은 친숙한 도구를 사용해 깊이 있게 탐색합니다(가끔은 랩톱에서 이를 수행하기도 합니다). 데이터 이동을 최소화하고(그에 따라 데이터 이동과 관련된 위험도 줄이면서) 대규모 탐색 데이터 분석의 효율성과 효과를 극대화하기 위해, 데이터 사이언티스트들은 자신들이 가장 익숙한 구문(Pandas와 유사한)을 사용해 모든 데이터를 탐색할 수 있는 Koalas를 활용할 수 있습니다.

아래 예시에서는 분산된 Spark 엔진을 내부적으로 활용하면서 간단한 Pandas와 유사한 구문을 사용해 J.P Morgan Chase의 모든 불만 사항을 탐색합니다.

import databricks.koalas as ks
kdf = spark.read.table("complaints.complaints_anonymized").to_koalas()

jp_kdf = kdf[kdf['company'] == 'JPMORGAN CHASE & CO.']
jp_kdf['product'].value_counts().plot('bar')

Sample chart visualizing number of complaints across multiple products using Koalas API

Koalas API를 사용해 여러 제품의 불만 건수를 시각화한 예시 차트입니다.

고객 불만에 대한 용어 빈도 분석을 실행해 특정 금융 서비스 산업에서 고객이 가장 많이 제기한 문제를 파악함으로써 분석을 한 단계 발전시킬 수 있습니다. 이를 통해 피해자 신원 도용 및 부당한 채권 추심과 관련된 문제를 한눈에 쉽게 파악할 수 있습니다.

Sample term frequency analysis chart visualizing the most descriptive n-gram mentioned in consumer complaints, produced via the Databricks approach to reputational risk analysis.

데이터브릭스의 평판 위험 분석 접근 방식을 통해 생성된 소비자 불만에서 언급된 가장 설명적인 n-그램을 시각화한 예시 용어 빈도 분석 차트입니다.

워드 클라우드를 사용해 소비자 대출 및 신용카드와 같은 개별 상품을 더 자세히 분석해 고객의 불만 사항을 더 잘 이해할 수 있습니다.

Understanding consumer complaints through word cloud visualization, produced via the Databricks approach to reputational risk analysis.

데이터브릭스의 평판 위험 분석 접근 방식을 통해 생성된 워드 클라우드 시각화를 통해 소비자 불만을 이해합니다.

탐색적 데이터 분석은 비즈니스 인텔리전스(BI) 및 반응형 분석에 유용하지만, 신뢰를 구축하고 효과적인 고객 서비스를 제공하며 개별 제품의 성과를 측정하기 위해서는 직접적인 고객 피드백, 공개 리뷰 및 기타 소셜 미디어 상호작용을 실시간으로 이해하고 예측하며 분류하는 것이 중요합니다. 많은 솔루션을 통해 데이터를 수집하고 저장할 수 있지만, 평판 관리 시스템을 구축할 때는 통합 플랫폼 내에서 데이터를 원활하게 분석하고 조치하여 핵심 인사이트를 얻을 수 있는 기능이 필수적입니다.

소비자 데이터의 예측 가능성을 검증하고 데이터 세트가 머신러닝에 적합한지 확인하기 위해, 아래 예시처럼 t-SNE(분산 확률 이웃 임베딩)를 활용하여 불만 사항 간의 유사성을 식별할 수 있습니다. 일부 소비자 불만은 가능한 카테고리 측면에서 겹칠 수 있습니다(예: 담보 대출과 무담보 대출이 유사한 키워드를 나타낼 수 있음), 하지만 기계가 쉽게 학습할 수 있는 명확한 군집을 관찰할 수 있습니다.

Validating the predictive potential of consumer complaints through t-SNE visualization

t-SNE 시각화를 통해 소비자 불만의 예측 가능성을 검증하는 과정입니다.

위의 도표는 불만을 분류할 수 있는 패턴을 다시 한번 강조해 줍니다. 또한, 잠재적인 중복은 최종 사용자나 상담원이 일부 불만을 잘못 분류할 수 있음을 시사하며, 이는 불만 관리 시스템의 최적화가 이루어지지 않고 고객 경험이 저하될 수 있다는 것을 의미합니다.

ML 및 증강 지능

데이터브릭스의 ML 런타임 패키지는 scikit-learn, XGboost, Tensorflow, Jon Snow Labs NLP와 같은 안정적이고 성능이 뛰어난 오픈 소스 프레임워크에 대한 액세스를 제공합니다. 이는 데이터 사이언티스트가 인프라, 패키지 및 종속성 관리에 드는 시간과 노력을 줄이고 데이터를 통해 가치를 창출하는 데 더 집중할 수 있도록 돕습니다.

이 예시에서는 간단한 scikit-learn 파이프라인을 구축하여 불만 사항을 t-SNE 플롯에서 볼 수 있는 네 가지 주요 제품 범주로 분류하고, 이전에 분쟁이 있었던 클레임을 학습하여 불만 사항의 심각도를 예측합니다. 델타 레이크는 데이터의 신뢰성과 성능을 제공하는 반면, MLFlow는 인사이트의 효율성과 투명성을 제공합니다. 모든 ML 실험을 추적하고 하이퍼파라미터를 한 곳에 자동으로 기록함으로써 신뢰할 수 있는 고품질의 아티팩트를 생성할 수 있습니다.

import mlflow
import mlflow.sklearn

with mlflow.start_run(run_name='complaint_classifier'):

  # Train pipeline, automatically logging all parameters
  pipeline.fit(X_train, y_train)  
  y_pred = pipeline.predict(X_test)
  accuracy = accuracy_score(y_pred, y_test)
  
  # Log pipeline and metrics to mlflow
  mlflow.sklearn.log_model(pipeline, "pipeline")
  mlflow.log_metric("accuracy", accuracy

모든 실험이 한 곳에 기록되기 때문에, 데이터 사이언티스트는 가장 적합한 모델을 쉽게 찾을 수 있으며, 운영팀은 모델 위험 관리 프로세스의 일환으로 승인된 모델을 검색하고 최종 사용자나 다운스트림 프로세스에 이러한 인사이트를 제공하여 모델 수명 주기 프로세스를 수개월에서 수주로 단축할 수 있습니다.

# load our model as a spark UDF
model_udf = mlflow.pyfunc.spark_udf(spark, "models:/complaints/production")

# load our model as a SQL function
spark.udf.register("classify", model_udf)

# classify complaints in real time
spark
  .readStream
  .table("complaints_fsi.complaints_anonymized")
  .withColumn("product", model_udf("complaint")

이제 ML을 적용하여 새로운 불만이 발생하면 실시간으로 자동으로 분류하고 경로를 재지정할 수 있으며, SQL 코드에서 UDF를 활용할 수 있게 되면서 비즈니스 분석가가 시각화를 위해 데이터를 쿼리하면서 모델과 직접 상호 작용할 수 있게 되었습니다.

SELECT 
  received_date, 
  classify(complaint) AS product,
  count(1) as total
FROM 
  complaints.complaints_anonymized
GROUP BY
  received_date

Databricks approach to reputational risk assessment augmenting BI with artificial intelligence for a more descriptive approach to analyze complaints and disputes for reputational risk management

데이터브릭스의 평판 위험 평가 방식은 인공 지능을 활용하여 BI를 강화함으로써, 평판 위험 관리를 위한 불만 및 분쟁 분석에 보다 설명적인 접근을 제공합니다.

이를 통해 사용자는 데이터브릭스 내에서 데이터브릭스 노트북 시각화나 SQL 분석과 같은 사용하기 쉬운 웹 기반 시각화 및 대시보드 도구를 활용하여 데이터를 탐색, 쿼리, 시각화 및 공유함으로써 보다 실행 가능한 인사이트를 도출할 수 있습니다. 간단한 SQL 구문을 통해 특정 위치에서 일정 기간 동안 다양한 제품에 대한 불만 사항을 쉽게 검토할 수 있으며, 이를 스트리밍으로 구현하면 고객 지원 팀이 신속한 조치를 취하고 고객에게 대응할 수 있는 인사이트를 제공할 수 있습니다. 예를 들어, 신원 도용 및 데이터 보안과 같은 일반적인 고객 불만은 브랜드 평판에 큰 영향을 미치고 규제 기관으로부터 거액의 벌금을 부과받을 수 있습니다. 이러한 유형의 사고는 본 블로그 게시물에서 설명한 파이프라인을 통해 쉽게 관리할 수 있으며, 이는 기업이 행복한 고객과 변화하는 디지털 환경을 위한 전략의 일환으로 평판 리스크를 관리하는 데 도움이 됩니다.

기업 거버넌스 전략에 평판 리스크 구축

이 블로그에서는 기업이 데이터브릭스의 통합 분석 플랫폼을 활용하여 고객 피드백을 안전하게 실시간으로 분석할 수 있는 리스크 엔진을 구축함으로써 평판 리스크를 조기에 평가할 수 있는 방법을 소개했습니다. CFPB에서 가져온 데이터를 중심으로 설명했지만, 이 방법은 소셜 미디어, 직접적인 고객 피드백, 기타 비정형 데이터 소스에도 적용될 수 있습니다. 이를 통해 데이터 팀은 데이터 볼륨이 증가함에 따라 확장 가능한 평판 위험 관리 플랫폼을 빠르게 구축하고 반복하며, 업계 최고의 오픈 소스 AI 도구를 활용할 수 있습니다.

AI를 활용하여 평판 리스크를 완화하는 방법과 비슷한 사용 사례를 가진 금융기관을 어떻게 지원하는지 자세히 알아보고 싶다면, 아래의 데이터브릭스 노트북을 통해 문의해 주세요.

  1. Delta Lake을 사용하여 익명화된 고객 불만을 실시간으로 수집
  2. Koalas로 대규모 불만 데이터 탐색
  3. AI를 활용하여 고객 불만 사항을 더 효과적으로 처리
  4. 증강 인텔리전스로 BI 보고서 강화