Thông thường khi demo 1 model có thể sử dụng rest api (mình thường dùng flask) và load model ngay trong code server để inference.
Ưu điểm: Code nhanh
Nhược điểm: Code của server sẽ bao gồm cả code xử lý của model AI (ví dụ tiền xử lý dữ liệu trước khi đưa vào model, load model..). Sử dụng http 1.1 nên tốc độ chưa dc nhanh
Tăng tốc inference:
Sử dụng tensorflow serving giúp cải thiện tốc độ inference của model.
Tensorflow serving có thể tạo dc cả rest api hoặc dùng gRPC trên HTTP/2(dùng gRPC trên HTTP/2 có tốc độ nhanh hơn)
Khi thay đổi version của model tensorflow serving có thể vừa load model mới mà model cũ vẫn chạy được (zero downtime)
Tham khảo:
https://viblo.asia/p/model-serving-trien-khai-machine-learning-model-len-production-voi-tensorflow-serving-deploy-machine-learning-model-in-production-with-tensorflow-serving-XL6lAvvN5ek