哔哩哔哩大规模AI模型推理实践
一、背景
AI算法复杂度逐年上升,需要高效的方式支持AI模型的推理和部署。
随着应用规模的扩大,算力资源消耗也在快速增长,对线上资源产生极大的压力。
B站AI涉及计算机视觉(CV)、自然语言处理(NLP)、语音等多个场景,服务于内容安全审核、内容理解和创作的上百个应用场景。
二、挑战和目标
挑战
线上资源随着流量线性增长,在降本增效的背景下,希望控制线上资源的增长。
随着大语言模型在工业界的推广和落地,NLP场景部署了BERT,GPT,T5-Large模型,模型复杂度明显提升。
帧级别的视频处理。例如,在OCR(Optical character recognition) 场景下,24小时内累计处理超过10亿张720p图片。这给模型推理和模型服务带来了极大的压力。
流量的增长和算法复杂度的提升给线上服务的Response Time和QPS带来了巨大的挑战。
大量长尾场景需要有统一的方式接入。
目标
提高推理的吞吐,降低资源增长速度。
改进Response Time,提升服务的质量。
扩展新业务,落地