Команда дослідників з китайської ШІ-компанії DeepSeek днями опублікувала статтю, у якій описала метод під назвою Manifold-Constrained Hyper-Connections або скорКоманда дослідників з китайської ШІ-компанії DeepSeek днями опублікувала статтю, у якій описала метод під назвою Manifold-Constrained Hyper-Connections або скор

DeepSeek знайшла новий підхід до навчання LLM-моделей, який може знову перевернути ШІ-ринок

2026/01/03 21:08

DeepSeek знайшла новий підхід до навчання LLM-моделей, який може знову перевернути ШІ-ринок

Команда дослідників з китайської ШІ-компанії DeepSeek днями опублікувала статтю, у якій описала метод під назвою Manifold-Constrained Hyper-Connections або скорочено mHC. Це дозволить розробникам будувати потужні мовні моделі, значно економлячи на обчислювальних ресурсах, які раніше вважалися незамінними для таких масштабів.

Залишити коментар

Команда дослідників з китайської ШІ-компанії DeepSeek днями опублікувала статтю, у якій описала метод під назвою Manifold-Constrained Hyper-Connections або скорочено mHC. Це дозволить розробникам будувати потужні мовні моделі, значно економлячи на обчислювальних ресурсах, які раніше вважалися незамінними для таких масштабів.

DeepSeek опинилася в центрі загальної уваги рік тому після релізу моделі R1, яка стала прямим конкурентом o1 від OpenAI, проте коштувала в рази дешевше у виробництві. Цей реліз став шоком для американських розробників, адже він довів, що для створення топового штучного інтелекту зовсім не обов’язково мати мільярдні бюджети та тисячі серверів.

Нова стаття про mHC може стати технологічною основою для майбутньої моделі DeepSeek, R2, яку планували випустити в середині минулого року, але відклали через обмежений доступ Китаю до передових ШІ-чипів штучного інтелекту та занепокоєння CEO компанії Лян Веньфена щодо продуктивності моделі.

Ця стаття, опублікована на сервері препринтів arXiv — популярному онлайн-ресурсі, де дослідники діляться результатами робіт, що ще не пройшли рецензування, — є спробою подолати складний і важливий технічний розрив, який перешкоджає масштабованості моделей ШІ, пише ZDNET.

Проблема

LLM побудовані на нейронних мережах, які, у свою чергу, призначені для збереження сигналів на багатьох шарах. Проблема полягає в тому, що чим більше шарів додається, тим більше сигнал може ослаблятися або погіршуватися, і тим більший ризик його перетворення на шум. Це трохи схоже на гру в телефон: чим більше людей додається, тим вища ймовірність того, що оригінальне повідомлення буде заплутане та змінене.

Отже, головне завдання полягає в тому, щоб створити моделі, здатні зберігати силу сигналу в якомога більшій кількості шарів — або, як зазначають дослідники DeepSeek у своїй новій роботі, «краще оптимізувати компроміс між пластичністю та стабільністю».

Рішення

Автори нової статті — серед яких і генеральний директор DeepSeek Лян Веньфен — спиралися на концепцію «гіперзв’язків» (HC). Цю структуру запропонували у 2024 році дослідники з ByteDance для диверсифікації каналів, через які шари нейронної мережі обмінюються інформацією між собою. Проте гіперзв’язки створюють ризик втрати початкового сигналу. Крім того, вони потребують значних витрат пам’яті, що ускладнює їх впровадження у великих масштабах.

Архітектура mHC має на меті вирішити цю проблему, обмежуючи гіперзв’язки в моделі, тим самим зберігаючи інформаційну складність, що забезпечується HC, одночасно уникаючи проблеми з пам’яттю. Це, своєю чергою, може дозволити навчання дуже складних моделей таким чином, щоб це було практично та масштабовано навіть для тих розробників, які мають менше коштів.

Чому це важливо

Як і у випадку з випуском R1 у січні 2025 року, дебют фреймворку mHC може натякнути на новий напрямок еволюції ШІ.

Досі в перегонах ШІ панувала думка, що лише найбільші та найбагатші компанії можуть дозволити собі створювати передові моделі. Але DeepSeek постійно демонструє, що обхідні шляхи можливі, і що проривів можна досягти виключно завдяки розумній інженерії.

Той факт, що компанія опублікувала своє нове дослідження методу mHC, означає, що він може бути широко прийнятий меншими розробниками, особливо якщо його буде використовувати довгоочікувана модель R2 (дата випуску якої офіційно не оголошена).

DeepSeek представила дві нові ШІ-моделі
По темi
DeepSeek представила дві нові ШІ-моделі
DeepSeek представив нову ШІ-модель V3.1-Exp, яку назвав «проміжним кроком до архітектури наступного покоління»
По темi
DeepSeek представив нову ШІ-модель V3.1-Exp, яку назвав «проміжним кроком до архітектури наступного покоління»
DeepSeek тепер маркує весь контент, створений ШІ, і ці позначки не можна видалити
По темi
DeepSeek тепер маркує весь контент, створений ШІ, і ці позначки не можна видалити
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Залишити коментар
Ринкові можливості
Логотип Large Language Model
Курс Large Language Model (LLM)
$0.0003145
$0.0003145$0.0003145
-4.72%
USD
Графік ціни Large Language Model (LLM) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.