LLMorbit: Кругова таксономія великих мовних моделей - від масштабування стін до агентичних систем штучного інтелекту

Quick read

1 bullets

Сфера штучного інтелекту зазнала революції від фундаментальних архітектур Transformer до систем, здатних до міркування, що наближаються до продуктивності на рівні людини. Ми представляємо LLMorbit, всеосяжну кругову таксономію, що орієнтується на ландшафт великих мовних моделей, що охоплюють 2019-2025 роки. Це опитування вивчає понад 50 моделей у 15 організаціях через вісім взаємопов'язаних орбітальних вимірів, документуючи архітектурні інновації, методології навчання та моделі ефективності, що визначають сучасні LLM, генеративний ШІ та агентні системи. Ми визначаємо три критичні кризи: (1) дефіцит даних (9-27 тис токенів, виснажені до 2026-2028 років), (2) експоненціальне зростання витрат (від 3 млн до 300 мільйонів доларів США за 5 років) та (3) нестійке споживання енергії (збільшення в 22 рази), що встановлює масштабну стіну, що обмежує підходи брутальної сили. Наш аналіз виявляє шість парадигм, що руйнують цю стіну: (1) обчислення тестового часу (o1, Deepseek-R1 досягають продуктивності GPT-4 з 10-кратним обчисленням висновків), (2) квантування (4-8x стиснення), (3) розподілені граничні обчислення (10-кратне зниження витрат), (4) об'єднання моделей, (5) ефективне навчання (ORPO зменшує пам'ять на 50%) та (6) невеликі спеціалізовані моделі (Phi6) -4 14B відповідає більшим моделям). З'являються три зміни парадигми: (1) підвищення після навчання (RLHF, GRPO, чистий RL суттєво сприяють, Deepseek-R1 досягає 79,8% MATH), (2) революція ефективності (18-кратна ефективність маршрутизації MoE, багатоголовна латентна увага 8x KV стиснення кешу забезпечує продуктивність рівня GPT-4 на рівні <$0.30/M токенів) та (3) демократизація (Llama 3 з відкритим кодом 88,6% MMLU перевершує GPT-4 4%). Ми надаємо уявлення про методи (RLHF, PPO, DPO, GRPO, ORPO), відстежуємо еволюцію від пасивної генерації до агентів, що використовують інструменти (ReAct, RAG, багатоагентні системи) та аналізуємо інновації після навчання.

Чому це важливо

✦

Сфера штучного інтелекту зазнала революції від фундаментальних архітектур Transformer до систем, здатних до міркування, що наближаються до продуктивності на рівні людини. Ми представляємо LLMorbit, всеосяжну кругову таксономію, що орієнтується на ландшафт великих мовних моделей, що охоплюють 2019-2025 роки. Це опитування вивчає понад 50 моделей у 15 організаціях через вісім взаємопов'язаних орбітальних вимірів, документуючи архітектурні інновації, методології навчання та моделі ефективності, що визначають сучасні LLM, генеративний ШІ та агентні системи. Ми визначаємо три критичні кризи: (1) дефіцит даних (9-27 тис токенів, виснажені до 2026-2028 років), (2) експоненціальне зростання витрат (від 3 млн до 300 мільйонів доларів США за 5 років) та (3) нестійке споживання енергії (збільшення в 22 рази), що встановлює масштабну стіну, що обмежує підходи брутальної сили. Наш аналіз виявляє шість парадигм, що руйнують цю стіну: (1) обчислення тестового часу (o1, Deepseek-R1 досягають продуктивності GPT-4 з 10-кратним обчисленням висновків), (2) квантування (4-8x стиснення), (3) розподілені граничні обчислення (10-кратне зниження витрат), (4) об'єднання моделей, (5) ефективне навчання (ORPO зменшує пам'ять на 50%) та (6) невеликі спеціалізовані моделі (Phi6) -4 14B відповідає більшим моделям). З'являються три зміни парадигми: (1) підвищення після навчання (RLHF, GRPO, чистий RL суттєво сприяють, Deepseek-R1 досягає 79,8% MATH), (2) революція ефективності (18-кратна ефективність маршрутизації MoE, багатоголовна латентна увага 8x KV стиснення кешу забезпечує продуктивність рівня GPT-4 на рівні <$0.30/M токенів) та (3) демократизація (Llama 3 з відкритим кодом 88,6% MMLU перевершує GPT-4 4%). Ми надаємо уявлення про методи (RLHF, PPO, DPO, GRPO, ORPO), відстежуємо еволюцію від пасивної генерації до агентів, що використовують інструменти (ReAct, RAG, багатоагентні системи) та аналізуємо інновації після навчання.

Builder takeaway

arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Сфера штучного інтелекту зазнала революції від фундаментальних архітектур Transformer до систем, здатних до міркування, що наближаються до продуктивності на рівні людини. Ми представляємо LLMorbit, всеосяжну кругову таксономію, що орієнтується на ландшафт великих мовних моделей, що охоплюють 2019-2025 роки. Це опитування вивчає понад 50 моделей у 15 організаціях через вісім взаємопов'язаних орбітальних вимірів, документуючи архітектурні інновації, методології навчання та моделі ефективності, що визначають сучасні LLM, генеративний ШІ та агентні системи. Ми визначаємо три критичні кризи: (1) дефіцит даних (9-27 тис токенів, виснажені до 2026-2028 років), (2) експоненціальне зростання витрат (від 3 млн до 300 мільйонів доларів США за 5 років) та (3) нестійке споживання енергії (збільшення в 22 рази), що встановлює масштабну стіну, що обмежує підходи брутальної сили. Наш аналіз виявляє шість парадигм, що руйнують цю стіну: (1) обчислення тестового часу (o1, Deepseek-R1 досягають продуктивності GPT-4 з 10-кратним обчисленням висновків), (2) квантування (4-8x стиснення), (3) розподілені граничні обчислення (10-кратне зниження витрат), (4) об'єднання моделей, (5) ефективне навчання (ORPO зменшує пам'ять на 50%) та (6) невеликі спеціалізовані моделі (Phi6) -4 14B відповідає більшим моделям). З'являються три зміни парадигми: (1) підвищення після навчання (RLHF, GRPO, чистий RL суттєво сприяють, Deepseek-R1 досягає 79,8% MATH), (2) революція ефективності (18-кратна ефективність маршрутизації MoE, багатоголовна латентна увага 8x KV стиснення кешу забезпечує продуктивність рівня GPT-4 на рівні <$0.30/M токенів) та (3) демократизація (Llama 3 з відкритим кодом 88,6% MMLU перевершує GPT-4 4%). Ми надаємо уявлення про методи (RLHF, PPO, DPO, GRPO, ORPO), відстежуємо еволюцію від пасивної генерації до агентів, що використовують інструменти (ReAct, RAG, багатоагентні системи) та аналізуємо інновації після навчання.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive