A CAMLIS Red 2025 abbiamo presentato BlackIce, un toolkit open-source containerizzato che raggruppa 14 strumenti di sicurezza IA ampiamente utilizzati in un unico ambiente riproducibile. In questo post, evidenziamo la motivazione alla base di BlackIce, ne descriviamo le funzionalità principali e condividiamo risorse per aiutarti a iniziare.
BlackIce è stato motivato da quattro sfide pratiche affrontate dai red teamer dell'AI: (1) ogni strumento ha un'impostazione e una configurazione uniche che richiedono molto tempo, (2) gli strumenti richiedono spesso ambienti di esecuzione separati a causa di conflitti tra le dipendenze, (3) i notebook gestiti espongono un singolo interprete Python per kernel e (4) il panorama degli strumenti è vasto e difficile da esplorare per i nuovi arrivati.
Ispirato a Kali Linux per il penetration testing tradizionale, BlackIce mira a consentire ai team di evitare le complessità di configurazione e di concentrarsi sui test di sicurezza, fornendo un'immagine container pronta per l'esecuzione.
BlackIce fornisce una Docker Image con versione bloccata che raggruppa 14 strumenti open-source selezionati che spaziano tra AI responsabile, test di sicurezza e ML avversario classico. Esposti tramite un'interfaccia a riga di comando unificata, questi strumenti possono essere eseguiti dalla Shell o all'interno di un Notebook Databricks che utilizza un ambiente di compute creato dall'immagine. Di seguito è riportato un riepilogo degli strumenti inclusi in questa versione iniziale, insieme alle organizzazioni che li supportano e al numero di stelle su GitHub al momento della stesura:
| Strumento | Organizzazione | Stelle |
|---|---|---|
| LM Eval Harness | Eleuther AI | 10.3K |
| Promptfoo | Promptfoo | 8.6K |
| CleverHans | CleverHans Lab | 6,4K |
| Garak | NVIDIA | 6.1K |
| ART | IBM | 5,6K |
| Giskard | Giskard | 4,9K |
| CyberSecEval | Meta | 3,8K |
| PyRIT | microsoft | 2,9K |
| EasyEdit | ZJUNLP | 2.6K |
| Promptmap | N/D | 1K |
| Fuzzy AI | CyberArk | 800 |
| Fickling | Trail of Bits | 560 |
| Configurazione | Dreadnode | 380 |
| Giudici | Quotient AI | 290 |
Per mostrare come BlackIce si inserisce nei framework di rischio per l'AI consolidati, abbiamo mappato le sue capacità su MITRE ATLAS e sul Databricks AI Security Framework (DASF). La tabella seguente illustra che il toolkit copre aree critiche come la prompt injection, la fuga di dati, il rilevamento di allucinazioni e la sicurezza della supply chain.
| BlackIce Capability | MITRE ATLAS | Databricks AI Security Framework (DASF) |
|---|---|---|
| Test di prompt-injection e jailbreak degli LLM | AML.T0051 LLM Iniezione di prompt; AML.T0054 LLM Jailbreak; AML.T0056 LLM Estrazione di meta-prompt | 9.1 Iniezione di prompt; 9.12 LLM jailbreak |
| Iniezione di prompt indiretta tramite contenuti non attendibili (ad es. RAG/email) | AML.T0051 LLM Prompt Injection [indiretta] | 9.9 Controllo delle risorse di input |
| Test di data leakage per LLM | AML.T0057 LLM Data Leakage | 10.6 Dati sensibili in output da un modello |
| Stress test e rilevamento delle allucinazioni | AML.T0062 Rilevare le allucinazioni degli LLM | 9.8 Allucinazioni degli LLM |
| Generazione di esempi avversari e test di evasione (CV/ML) | AML.T0015 Elusione di modelli di ML; AML.T0043 Creazione di dati avversari | 10.5 Attacchi black box |
| Scansione della catena di approvvigionamento e della sicurezza degli artefatti (ad es. pickle dannosi) | AML.T0010 Compromissione della catena di approvvigionamento dell'IA; AML.T0011.000 Artefatti IA non sicuri | 7.3 Vulnerabilità della supply chain di ML |
BlackIce organizza i suoi strumenti integrati in due categorie. Gli strumenti statici valutano le applicazioni di AI tramite semplici interfacce a riga di comando e richiedono poca o nessuna esperienza di programmazione. Gli strumenti dinamici offrono capacità di valutazione simili ma supportano anche la personalizzazione avanzata basata su Python, consentendo agli utenti di sviluppare codice di attacco personalizzato. All'interno dell'immagine container, gli strumenti statici sono installati in ambienti virtuali Python isolati (o in progetti Node.js separati), ciascuno dei quali mantiene dipendenze indipendenti ed è accessibile direttamente dalla CLI. In alternativa, gli strumenti dinamici vengono installati nell'ambiente Python globale, con i conflitti tra le dipendenze gestiti tramite un file global_requirements.txt.
Alcuni strumenti nell'immagine hanno richiesto piccole aggiunte o modifiche per connettersi senza problemi con gli endpoint di Databricks Model Serving. Abbiamo applicato patch personalizzate a questi strumenti affinché possano interagire direttamente con gli Workspace di Databricks senza alcuna configurazione aggiuntiva.
Per una spiegazione dettagliata del processo di build, incluso come aggiungere nuovi strumenti o aggiornarne le versioni, consulta il file README della build Docker nel repository GitHub.
L'immagine BlackIce è disponibile sul Docker Hub di Databricks e la versione corrente può essere scaricata utilizzando il seguente comando:
Per utilizzare BlackIce in un workspace Databricks, configura la tua compute con Databricks Container Services e specifica databricksruntime/blackice:17.3-LTS come URL dell'Docker Image nel menu Docker durante la creazione del cluster.
Una volta creato il cluster, puoi collegarlo a questo notebook demo per vedere come più strumenti di sicurezza IA possono essere orchestrati in un unico ambiente per testare modelli e sistemi di IA alla ricerca di vulnerabilità quali attacchi di iniezione di prompt e jailbreak.
Consulta il nostro repository GitHub per saperne di più sugli strumenti integrati, trovare esempi per eseguirli con i modelli ospitati su Databricks e accedere a tutti gli artefatti di build Docker.
Per ulteriori dettagli sul processo di selezione degli strumenti e sull'architettura della Docker Image, consulta il nostro Red Paper CAMLIS.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Produto
June 12, 2024/11 min de leitura
Segurança e confiança
January 3, 2025/10 min de leitura


