Golded

- RU.AI ------------------- < Пред. | След. > -- < @ > -- < Сообщ. > -- < Эхи > --

Nп/п : 4 из 100

От : Nil A 2:5015/46 19 фев 26 22:08:44

К : Oleg Artemjev 19 фев 26 22:48:01

Тема : Какие генеративные модели можно запускать на домашнем железе

----------------------------------------------------------------------------------

@MSGID: 2:5015/46 699768c9
@REPLY: 2:6078/80.1354 6996e30f
@CHRS: CP866 2
@TZUTC: 0300
@TID: hpt/lnx 1.9
Hello, Oleg!

Thursday February 19 2026 12:41, from Oleg Artemjev -> Sergey Kaluzhskiy:

OA> А что можно поставить имея терабайт не ссд диска и 16 гиг ОЗУ из
OA> LLMок?
OA> llama, какую не помню, я как-то внутри Qubes ВМки гонял - очень
OA> медленно. Но может оно приемлемо шуршит на bare metal?

Для запуска генеративного ИИ, т.е. то что называют GPT, ChatGPT..
нужна топовая видюха(и) с дофига видео-памятью. Если современный Мак на M1,
то там универсальная память, она доступна как CPU, так и GPU, тогда
как на дискретных видеокартах есть параметр VRAM - т.е. видео память.

Виртуализации плохо работают с доступом к видеокарте, только если это
не pci passthrough какой-нибудь.

Можно запускать модели на CPU, но это супер медленно, раз в 10
может быть. Можно запускать в гибридном режиме, когда-то часть вычислений
происходит на видюхе с видеопамятью, а остальное на CPU в системной памяти,
тогда по-максимуму задействуется железо, но такие сепаты требуют задавать
параметры вручную, а это чуть сложнее однокнопочных Ollama и LM Studio, у
которых под капотом llama.cpp.

Чем больше миллиардов параметров модель, тем больше нам нужно памяти,
плюс память на размер контекстного окна. Диск нужен только чтобы загрузить
модель в память/видеопамять, и тут вообще проблемы нет.

Для уменьшения требования к объёму памяти, можно использовать
квантованные модели, что ухудшает качество, но в разы снижает потребление памяти.
Практически, на домашнем железе получается запускать либо квантованные но большие
модели, либо неквантованные но маленькие.

По-сути сегодня есть два типа моделей. Dense-модели, когда нужно
каждый параметр пробегать для каждого токена - это долго, и вся модель
должна быть в памяти. MoE-модели (Mixture of Experts), когда только часть
параметров активна, т.е. модель может быть огромной, но не вся постоянно в
памяти. Возможно за MoE-моделями будущее, но там вопрос, правильно ли эти
самые эксперты выбираются из всех параметров.

Я приведу выдержки из моей локалки.
= local.cc (2:5015/46) ========================================================
From : Egor Gavrilov                       2:5015/519      24 Dec 25 17:00:20
To   : Nil A
Subj : Локальный инференс
===============================================================================

[...]
У меня gpt-oss-20b спокойно вертится на RTX 5060. MoE-слои выношу в проц,
Dense-слои и K/V-кэш - в VRAM.

Qwen3-Coder 30B тоже спокойно работает. И всё это на лэптопе, с 32 гигами RAM,
и с 8 гигами VRAM. Но заряд аккума сжирает будь здоров.

Почему решил ноут взять? Потому что без портативности всё равно мне никуда, к
сожалению. Я люблю, когда моя лошадка всегда со мной - и в доме, и между
домами.

NA> Кайф маков на арме, что у них вся память плоская - если у тебя 24ГБ
NA> (маркетологи хуевы тут поработали), то это и под рам и под вирам.
NA> Писюковые (всмысле x86) видюхи имеют свою вирам на борту, и только с
NA> ней они могут работать. Модельки на 6 миллиардов квантованная целиком
NA> залазит в вирам, и быстро генерируют токены. Но кайф llama.cpp, что я
NA> можу указать, сколько слоёв обрабатывается на видюхе, сколько на
NA> проце, а на проце у меня есть рамы на 64 гига, но писец тормозно. Я
NA> пробовал "взрослые" модели, они все на ЦПУ у меня идут, зажирая 64ГБ,
NA> но неюзабельно по скорости.

Ну камон, почему не MoE? У меня на Dense-моделях тоже максимум 8B параметров.
А MoE позволяет выжать и 20, и даже 30 лярдов параметров.

NA> Итого, я ограничен в домашних экспериментах кинуть несколько уровней
NA> на ГПУ 8ГБ, и остальное на ЦПУ с 64ГБ, и довольно жирные опенсорц
NA> модели пробовал. Всё что можно выжить из такого железа, с пиздецовым
NA> временем ожидания - уровня ChatGPT 3.5. Говорят, что опенсорц
NA> модельки типа Qwen, или Deepseek, с дох@я миллиардов, могут типа
NA> ChatGPT 4o уровня решать задачки, что за@бись. Но даже со своим
NA> железом, в домашних условиях, я могу фидошные сообщения прогонять
NA> через токенайзер и ибеддинг, чтобы, например, искать по сообщениям.
NA> Но даже на 8 миллиардах llama или 7b mistral, я могу немного
NA> попросить обощить прочитанное.

Я спокойно юзаю gpt-oss-20b, и качество вполне себе неплохое (в плане агентной
разработки, например). Qwen3-Coder, по моему мнению, с тем же Continue не
дружит особо. Но возможно, что дружит с тем же Roo Code, VeAI, и другими
плагинами. Ибо Continue само по себе далеко не лучший именно как агент.
===============================================================================

Best Regards, Nil
--- GoldED+/LNX 1.1.5-b20250409
* Origin: Gemini can make mistakes, so double-check it (2:5015/46)
SEEN-BY: 50/701 452/28 460/58 463/68 4500/1
5001/100 5010/352 5015/42 46 120
SEEN-BY: 5015/255 519 5020/570 715 830 848 1042
4441 12000 5023/24 5030/49
SEEN-BY: 5030/115 722 1081 5031/71 5053/55 58 400
5080/102 6035/66 6055/7
SEEN-BY: 6078/80
@PATH: 5015/46 5020/4441

GoldED+ VK │ │ 09:55:30