针对Transformer从两个维度进行inference的加速,
Optimizations in FasterTransformer
Triton inference server system[2]
一个基于docker的ML Serving系统。支持Adaptive Batching(server-side),见下图。
一种可以支持多种云服务的framework。
有点牛的。(没啥特别的,看了一下,感觉只支持TF,这没啥用啊)
支持非常多的metric,可以制定相关的service。
支持k8s,混合device。
支持aws。
Cloud Edge Inference Solution、支持Dynamic batching、支持model ensemble。(Nvidia的东西,有点牛的。)对于Large Model有优化。
挺有意思的