admin cad技巧 2023-06-18 03:00:50

哔哩哔哩大规模AI模型推理实践

一、背景

AI算法复杂度逐年上升，需要高效的方式支持AI模型的推理和部署。

随着应用规模的扩大，算力资源消耗也在快速增长，对线上资源产生极大的压力。

B站AI涉及计算机视觉（CV）、自然语言处理（NLP）、语音等多个场景，服务于内容安全审核、内容理解和创作的上百个应用场景。

二、挑战和目标

挑战

线上资源随着流量线性增长，在降本增效的背景下，希望控制线上资源的增长。

随着大语言模型在工业界的推广和落地，NLP场景部署了BERT，GPT，T5-Large模型，模型复杂度明显提升。

帧级别的视频处理。例如，在OCR(Optical character recognition) 场景下，24小时内累计处理超过10亿张720p图片。这给模型推理和模型服务带来了极大的压力。

流量的增长和算法复杂度的提升给线上服务的Response Time和QPS带来了巨大的挑战。

大量长尾场景需要有统一的方式接入。

目标

提高推理的吞吐，降低资源增长速度。

改进Response Time，提升服务的质量。

扩展新业务，落地

分享到：