2025년 11월 11일

더 높은 투명성을 위한 에이전트 기반 식품 라벨 리더 구축

Agent Bricks로 대규모 자동 라벨 처리를 간소화하는 방법

소비자는 식품 투명성을 요구하지만 제조업체의 주장은 불신하여 자동화된 라벨 처리의 필요성이 대두됩니다
Databricks Agent Bricks는 패키지 이미지에서 대규모로 성분 데이터를 추출하고 구조화합니다
조직은 노코드 도구를 사용하여 몇 시간 만에 프로덕션용 라벨 판독 워크플로를 구축할 수 있습니다

식품 라벨링에 대한 고객의 기대에 근본적인 변화가 있었습니다. 최근 설문조사에 따르면, 미국 쇼핑객의 4분의 3은 이제 자신이 구매하는 식품에 대한 포괄적인 정보를 요구하며, 거의 3분의 2는 5년 전보다 라벨을 더 꼼꼼히 살핍니다. 이는 일시적인 유행이 아니라, 알레르기와 불내증을 관리하는 가족이 늘고 비건, 채식, 글루텐 프리 등 특정 식단을 고수하는 쇼핑객이 늘어난 데 따른 결과입니다.

하지만 어려운 점이 있습니다. 소비자의 16%만이 식품 제조업체의 건강 관련 주장을 신뢰한다는 것입니다. 이는 쇼핑객이 자신만의 기준으로 제품을 직접 평가하고 싶어 한다는 것을 의미합니다. 이들은 구매 결정의 일환으로 성분 목록을 스캔하고 패키지 라벨을 꼼꼼히 검토하여 원산지, 생산 방식, 영양 정보 및 이러한 정보가 자신의 특정 건강 요구 사항과 어떻게 부합하는지 더 잘 이해하려고 합니다.

규제 기관이 업데이트된 라벨링 요건을 마련하는 동안, 선도적인 유통업체들은 이미 조치를 취하고 있습니다. 이들은 고급 데이터 추출 및 성분 분석을 사용하여 포장 및 영양 라벨을 검색 및 필터링이 가능한 디지털 경험으로 전환하고 있습니다. 이를 통해 고객은 알레르기 유발 성분이 없는 옵션, 글루텐 프리 제품, 지속 가능하게 조달된 품목 등 자신에게 필요한 것을 정확하게 찾을 수 있습니다. 이러한 투명성 이니셔티브는 유통업체를 경쟁사와 차별화할 뿐만 아니라, 특히 고수익 제품의 경우 더 깊은 고객 참여를 유도하고 판매를 증대시킵니다.

Data + AI 솔루션

일반적인 미국 식료품점에서 볼 수 있는 35,000개의 고유 SKU를 따라잡는 것은 어려운 일이며, 매달 150~300개의 새로운 SKU가 출시됩니다. 하지만 오늘날의 에이전틱 AI 애플리케이션을 사용하면 이제 합리적인 비용으로 대규모 식품 라벨 판독을 자동화할 수 있습니다.

영양 성분 라벨 이미지를 입력으로 사용하면 이 시스템은 이미지를 파싱하여 원시 성분 및 영양 정보를 추출합니다. 이 정보는 정형 데이터로 처리된 후 내부 분석과 고객 대면 디지털 경험 모두에 활용될 수 있습니다. 이 데이터를 바탕으로 고객 지원에 필요한 알레르기 유발 물질, 초가공 성분, 지속 가능성 속성, 라이프스타일 선호도에 대한 맞춤형 분류를 만들 수 있습니다.

이 블로그에서는 Databricks의 Agent Bricks 기능을 사용하여 조직을 위한 자동화된 식품 라벨 리더의 개발 및 배포를 단순화하고 간소화하는 엔드투엔드 프로세스 구현 방법을 보여드립니다.

솔루션 빌드

식품 라벨 판독 워크플로는 매우 간단합니다(그림 1). 식품 패키지에서 찍은 이미지를 액세스 가능한 스토리지 위치에 로드하고, AI를 사용하여 이미지에서 텍스트를 추출해 테이블로 변환한 다음, AI를 적용하여 추출된 텍스트를 알려진 스키마에 맞게 정렬합니다.

제품 포장 이미지에서 라벨 데이터를 읽는 개략적인 워크플로 — Figure 1. The high-level workflow by which label data is read from images of product packaging.

첫 번째 단계에서는 그림 2와 같이 성분 목록이 표시된 제품 패키지 이미지를 여러 장 수집합니다. 이러한 이미지는 .png, .jpeg, 또는 .pdf 형식은 Unity Catalog(UC) 볼륨으로 로드 되어 Databricks 내에서 사용할 수 있게 됩니다.

UC 볼륨에 로드되어 제품 성분 정보를 표시하는 이미지 중 하나 — Figure 2. One of the images loaded into our UC volume and displaying product ingredient information.

이미지를 로드한 후 Databricks workspace의 왼쪽 메뉴에서 Agents 를 선택하고 페이지 상단에 표시된 정보 Extraction 에이전트로 이동합니다(그림 3).

Databricks 작업 공간의 Agents 페이지에는 Information Extraction 에이전트를 포함하여 사용 가능한 다양한 에이전트가 표시됩니다. — Figure 3. The Agents page in the Databricks workspace shows the various agents available to us, including the Information Extraction agent.

정보 Extraction 에이전트는 Use PDFs 와 Build라는 두 가지 옵션을 제공합니다. 먼저 Use PDFs 옵션을 선택하여 다양한 이미지 형식에서 텍스트를 추출하는 작업을 정의합니다. (.pdf 의 경우 (선택한 옵션 이름에 특정 형식이 표시되어 있어도 다른 표준 이미지 형식이 지원됩니다.)

Use PDFs 옵션을 클릭하면 대화상자가 표시되며, 여기서 이미지 파일이 있는 UC 볼륨과 추출된 정보가 로드될 (아직 존재하지 않는) 테이블의 이름을 식별합니다(그림 4).

정보 추출 에이전트에서 'PDF 사용' 옵션을 구성하여 UC 볼륨의 이미지 정보를 읽고 추출된 정보를 대상 테이블에 작성 — Figure 4. Configuring the Use PDFs option with the Information Extraction agent to read information from the images in a UC volume, writing the extracted information to a target table destination.

가져오기 Start 버튼 을 클릭하면 UC 볼륨의 이미지에서 텍스트 세부정보를 추출하여 대상 테이블에 로드하는 job이 시작됩니다. (워크플로를 운영화하는 과정에서 이 job으로 다시 돌아오겠습니다.) 결과 테이블에는 텍스트를 추출한 파일을 식별하는 필드, struct(JSON) 필드, 그리고 이미지에서 캡처한 텍스트 정보가 담긴 원시 텍스트 필드가 포함됩니다(그림 5).

대상 테이블에는 이미지에서 추출된 정보가 포함되어 있습니다. — Figure 5. The target table contains information extracted from our images.

대상 테이블로 전달된 텍스트 정보를 검토하면 각 이미지에서 추출된 전체 콘텐츠 범위를 볼 수 있습니다. 이미지에서 읽을 수 있는 모든 텍스트는 추출되어 액세스할 수 있도록 raw_parsed 및 text 필드에 배치됩니다.

각 이미지의 성분 목록과 연관된 텍스트에만 관심이 있으므로, agent를 구현하여 추출된 텍스트의 특정 부분으로 초점을 좁혀야 합니다. 이렇게 하려면 Agents 페이지로 돌아가서 정보 Extraction 에이전트와 관련된 Build 옵션을 클릭합니다. 결과 대화 상자에서, 이전에 추출한 텍스트를 넣었던 테이블과 해당 테이블에서 처리할 원시 텍스트가 포함된 text 필드를 지정합니다(그림 6).

이미지에서 추출된 텍스트 정보에 대해 제안된 스키마를 보여주는 정보 추출 에이전트의 빌드 대화 상자 — Figure 6. The Build dialog for our Information Extraction agent, showing a suggested schema for the text information extracted from our images.

에이전트는 추출된 텍스트의 스키마를 추론하고 이 스키마에 매핑된 데이터 요소를 화면 하단에 샘플 JSON 출력으로 표시합니다. 이 구조 그대로 데이터를 사용하거나 데이터를 수동으로 재구성하여 자체적으로 정의한 JSON 문서로 만들 수 있습니다. 후자의 접근 방식(대부분의 경우에 해당)을 택하는 경우, 재구성된 JSON을 출력 창에 붙여넣기만 하면 agent가 텍스트 데이터에 대한 대체 스키마를 추론할 수 있습니다. 에이전트가 데이터에서 정확히 원하는 결과를 제공하기까지 여러 번의 반복 작업이 필요할 수 있습니다.

원하는 방식으로 데이터를 구성한 후 에이전트 만들기 버튼을 클릭하여 빌드를 완료합니다. 이제 UI에 여러 레코드에 대한 파싱 출력이 표시되므로, 작업 결과를 검증하고 추가 수정을 통해 일관된 결과 집합을 얻을 수 있습니다(그림 7).

에이전트 빌드 후 추출 품질을 확인하거나 원하는 대상 스키마를 수정합니다 — Figure 7. After the agent is built, check the quality of its extraction or modify the desired target schema.

스키마화된 텍스트를 검증하는 것 외에도, 데이터를 검토하여 값을 도출하는 간단한 프롬프트를 사용해 추가 필드를 더할 수 있습니다. 예를 들어, 성분 목록에서 글루텐 함유 가능성이 있는 항목을 검색하여 제품이 글루텐 프리인지 추론하거나, 동물성 성분을 식별하여 제품이 비건 친화적인지 확인할 수 있습니다. 에이전트는 기본 모델에 내장된 지식과 데이터를 결합하여 이러한 결과를 도출합니다.

저장 및 업데이트 를 클릭하면 조정된 에이전트가 저장됩니다. Quality Report 및 Optimization tab을 사용하여 여기에 설명된 대로 에이전트를 더욱 향상시킬 수 있습니다. 에이전트 설정이 만족스러우면 Use를 클릭하여 빌드를 완료합니다. ETL 파이프라인 만들기 옵션을 선택하면 워크플로를 운영화할 수 있는 선언적 파이프라인이 생성됩니다.

참고: 다음 단계에 대한 동영상 데모는 여기에서 시청할 수 있습니다.

솔루션 운영화

이 시점에서 우리는 이미지에서 텍스트를 추출하여 테이블에 로드하는 job을 정의했습니다. 또한 추출된 텍스트를 잘 정의된 스키마에 매핑하기 위한 ETL 파이프라인도 정의했습니다. 이제 이 두 요소를 결합하여 지속적으로 이미지를 처리할 수 있는 엔드투엔드 job을 만들 수 있습니다.

첫 번째 단계에서 생성한 job, 즉 Use PDFs의 경우, 이 job이 단일 단계로 구성되어 있음을 알 수 있습니다. 이 단계는 ai_query() 함수 호출을 통해 생성형 AI 모델을 사용하는 SQL query로 정의됩니다. 이 접근 방식의 장점은 개발자가 UC 볼륨의 새 파일만 처리하도록 로직을 수정하는 등 텍스트 추출 단계를 둘러싼 로직을 간단하게 사용자 지정할 수 있다는 것입니다.

job의 첫 번째 단계 로직에 만족한다면, 이전에 정의한 ETL 파이프라인을 호출하는 후속 단계를 job에 추가할 수 있습니다. 이를 위해 필요한 상위 수준의 작업은 여기에서 확인할 수 있습니다. 최종 결과는 이제 지속적으로 실행하도록 예약할 수 있는, 성분 목록 추출을 위한 엔드투엔드 워크플로를 캡처하는 2단계 job이 완성되었다는 것입니다(그림 8).

이미지에서 텍스트를 추출하고 에이전트를 통해 성분 정보를 추출하는 과정을 오케스트레이션하는 Lakeflow Job — Figure 8. A Lakeflow Job orchestrating the extraction of text from images and the ingredient information extraction via our Agent.

지금 시작해 보세요!

Databricks의 새로운 Agent Bricks 기능을 사용하면 이전에는 까다롭거나 번거로웠던 수동 작업을 처리할 수 있는 에이전틱 워크플로를 비교적 쉽게 구축할 수 있습니다. 이는 식품 라벨, 공급업체 규정 준수, 지속 가능성 보고 또는 비정형 데이터와 관련된 기타 모든 과제 등 대규모 문서 처리를 자동화할 준비가 된 조직에 다양한 가능성을 열어줍니다.

첫 번째 에이전트를 빌드할 준비가 되셨나요? Start Agent Bricks를 시작하고 선도적인 기업들이 이미 발견한 자동 최적화, 코드 없는 개발, 그리고 몇 주가 아닌 몇 시간 만에 달성하는 운영 수준의 품질을 경험해 보세요. Databricks workspace를 방문하여 에이전트 페이지로 이동하고, 전 세계 엔터프라이즈 고객을 위해 이미 수백만 개의 문서를 처리하고 있는 검증된 기술로 문서 인텔리전스 운영을 혁신해 보세요.

지금 바로 Databricks 작업 공간에서 Agent Bricks로 첫 번째 에이전트 빌드를 시작하세요.
몇 주가 아닌 몇 시간 만에 코드 없는 개발과 프로덕션 수준의 품질을 경험해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

더 높은 투명성을 위한 에이전트 기반 식품 라벨 리더 구축

Data + AI 솔루션

솔루션 빌드

솔루션 운영화

지금 시작해 보세요!

최신 게시물을 이메일로 받아보세요

Sign up