Agent Bricks로 대규모 자동 라벨 처리를 간소화하는 방법
작성자: 네이선 앤서니, 크리슈나 루파나군타 , Bryan Smith
식품 라벨링에 대한 고객의 기대에 근본적인 변화가 있었습니다. 최근 설문조사에 따르면, 미국 쇼핑객의 4분의 3은 이제 자신이 구매하는 식품에 대한 포괄적인 정보를 요구하며, 거의 3분의 2는 5년 전보다 라벨을 더 꼼꼼히 살핍니다. 이는 일시적인 유행이 아니라, 알레르기와 불내증을 관리하는 가족이 늘고 비건, 채식, 글루텐 프리 등 특정 식단을 고수하는 쇼핑객이 늘어난 데 따른 결과입니다.
하지만 어려운 점이 있습니다. 소비자의 16%만이 식품 제조업체의 건강 관련 주장을 신뢰한다는 것입니다. 이는 쇼핑객이 자신만의 기준으로 제품을 직접 평가하고 싶어 한다는 것을 의미합니다. 이들은 구매 결정의 일환으로 성분 목록을 스캔하고 패키지 라벨을 꼼꼼히 검토하여 원산지, 생산 방식, 영양 정보 및 이러한 정보가 자신의 특정 건강 요구 사항과 어떻게 부합하는지 더 잘 이해하려고 합니다.
규제 기관이 업데이트된 라벨링 요건을 마련하는 동안, 선도적인 유통업체들은 이미 조치를 취하고 있습니다. 이들은 고급 데이터 추출 및 성분 분석을 사용하여 포장 및 영양 라벨을 검색 및 필터링이 가능한 디지털 경험으로 전환하고 있습니다. 이를 통해 고객은 알레르기 유발 성분이 없는 옵션, 글루텐 프리 제품, 지속 가능하게 조달된 품목 등 자신에게 필요한 것을 정확하게 찾을 수 있습니다. 이러한 투명성 이니셔티브는 유통업체를 경쟁사와 차별화할 뿐만 아니라, 특히 고수익 제품의 경우 더 깊은 고객 참여를 유도하고 판매를 증대시킵니다.
일반적인 미국 식료품점에서 볼 수 있는 35,000개의 고유 SKU를 따라잡는 것은 어려운 일이며, 매달 150~300개의 새로운 SKU가 출시됩니다. 하지만 오늘날의 에이전틱 AI 애플리케이션을 사용하면 이제 합리적인 비용으로 대규모 식품 라벨 판독을 자동화할 수 있습니다.
영양 성분 라벨 이미지를 입력으로 사용하면 이 시스템은 이미지를 파싱하여 원시 성분 및 영양 정보를 추출합니다. 이 정보는 정형 데이터로 처리된 후 내부 분석과 고객 대면 디지털 경험 모두에 활용될 수 있습니다. 이 데이터를 바탕으로 고객 지원에 필요한 알레르기 유발 물질, 초가공 성분, 지속 가능성 속성, 라이프스타일 선호도에 대한 맞춤형 분류를 만들 수 있습니다.
이 블로그에서는 Databricks의 Agent Bricks 기능을 사용하여 조직을 위한 자동화된 식품 라벨 리더의 개발 및 배포를 단순화하고 간소화하는 엔드투엔드 프로세스 구현 방법을 보여드립니다.
식품 라벨 판독 워크플로는 매우 간단합니다(그림 1). 식품 패키지에서 찍은 이미지를 액세스 가능한 스토리지 위치에 로드하고, AI를 사용하여 이미지에서 텍스트를 추출해 테이블로 변환한 다음, AI를 적용하여 추출된 텍스트를 알려진 스키마에 맞게 정렬합니다.

첫 번째 단계에서는 그림 2와 같이 성분 목록이 표시된 제품 패키지 이미지를 여러 장 수집합니다. 이러한 이미지는 .png, .jpeg, 또는 .pdf 형식은 Unity Catalog(UC) 볼륨으로 로드 되어 Databricks 내에서 사용할 수 있게 됩니다.

이미지를 로드한 후 Databricks workspace 의 왼쪽 메뉴에서 Agents 를 선택하고 페이지 상단에 표시된 정보 Extraction 에이전트로 이동합니다(그림 3).

정보 Extraction 에이전트는 Use PDFs 와 Build라는 두 가지 옵션을 제공합니다. 먼저 Use PDFs 옵션을 선택하여 다양한 이미지 형식에서 텍스트를 추출하는 작업을 정의합니다. (.pdf 의 경우 (선택한 옵션 이름에 특정 형식이 표시되어 있어도 다른 표준 이미지 형식이 지원됩니다.)
Use PDFs 옵션을 클릭하면 대화상자가 표시되며, 여기서 이미지 파일이 있는 UC 볼륨과 추출된 정보가 로드될 (아직 존재하지 않는) 테이블의 이름을 식별합니다(그림 4).
