Large Transformer Model Inference Optimization
Любителям погонять GPT-3 у себя на ноутбуке. Lilian Weng недавно написала объемный блог пост, про существующие техники ускорения и увеличения эффективности инференса больших языковых моделей, да и не только языковых, а больших трансформеров в целом.
Го читать статью!
А вот тут я ещё писал про ее топовый пост о диффузионках.
@ai_newz