Dễ dàng tăng tốc độ LLM của bạn lên tới 3x⚡️ trong khi vẫn giữ lại hơn 99,5% độ chính xác của mô hình 🎯
Với Post-Training Quantization của TensorRT Model Optimizer, bạn có thể lượng tử hóa các mô hình tiên tiến đến NVFP4—giảm đáng kể bộ nhớ và chi phí tính toán trong quá trình suy diễn, trong khi
Xem bản gốc