就是通过流式提升可感知的响应速度

Solve china dataset issues with shared expertise and innovation.
Post Reply
Reddi2
Posts: 189
Joined: Sat Dec 28, 2024 8:47 am

就是通过流式提升可感知的响应速度

Post by Reddi2 »

非流式会导致你等半天突然所有结果出来了) 异步非阻塞管道:由于LLM调用可能需要很长时间来处理,我们通过构建一个完全异步非阻塞的管道来优化服务吞吐量,该管道不会因I/O阻塞的线程而浪费资源。 这些因素之间有时会产生有趣的相互作用。举个例子,我们最初只限制了首个Token响应时间(TimeToFirstToken, TTFT),因为这对于我们初期产品延迟有直接影响。


然而,随着我们解决幻觉问题,并且思维链(Chain of Thought, CoT)在我们的提示 法国电话号码数据 词中变得突出,如果我们忽略了Token间响应时间(TimeBetweenTokens, TBT)会对我们造成更大的伤害,因为任何“推理”token都会增加产品的延迟(例如,对于一个200个tokens的推理步骤,即使是0毫秒的TBT增加也意味着额外的2秒延迟)。


这会导致我们公共平台上的某些任务突然发出超时警告,我们不得不迅速增加算力以缓解这一问题。 还在死磕的事: 将更简单的任务转移到内部进行,并使用微调后的自己的模型进行处理。 (注:潜在意思是专门化的模型要和通用大模型进行搭配) 为大语言模型(LLM)部署构建更可预测的基础设施。 (注:不理解,我猜是LLM吞吐量伸缩需要更可控) 减少每个步骤中浪费的tokens。
Post Reply