メインコンテンツへジャンプ
ジュリアン・ケベド

ジュリアン・ケベド

ジュリアン・ケベド's posts

Serving Quantized LLMs on NVIDIA H100 Tensor Core GPUs

Mosaic Research

2024年1月31日/1分未満

NVIDIA H100 Tensor Core GPU上でのクオンタイズ(量子化)LLMの処理

LLM Inference Performance Engineering: Best Practices

Mosaic Research

2023年10月12日/2分で読めます

LLM推論パフォーマンスエンジニアリング:ベストプラクティス