RU.AI ------------------- < Пред. | След. > -- < @ > -- < Сообщ. > -- < Эхи > --
 Nп/п : 4 из 100
 От   : Nil A                               2:5015/46         19 фев 26 22:08:44
 К    : Oleg Artemjev                                         19 фев 26 22:48:01
 Тема : Какие генеративные модели можно запускать на домашнем железе
----------------------------------------------------------------------------------
                                                                                 
@MSGID: 2:5015/46 699768c9
@REPLY: 2:6078/80.1354 6996e30f
@CHRS: CP866 2
@TZUTC: 0300
@TID: hpt/lnx 1.9
Hello, Oleg!

Thursday February 19 2026 12:41, from Oleg Artemjev -> Sergey Kaluzhskiy:

 OA> А что можно поставить имея терабайт не ссд диска и 16 гиг ОЗУ из
 OA> LLMок?
 OA> llama, какую не помню, я как-то внутри Qubes ВМки гонял - очень
 OA> медленно. Но может оно приемлемо шуршит на bare metal?

 Для запуска генеративного ИИ, т.е. то что называют GPT, ChatGPT..
нужна топовая видюха(и) с дофига видео-памятью. Если современный Мак на M1,
то там универсальная память, она доступна как CPU, так и GPU, тогда
как на дискретных видеокартах есть параметр VRAM - т.е. видео память.

 Виртуализации плохо работают с доступом к видеокарте, только если это
не pci passthrough какой-нибудь.

 Можно запускать модели на CPU, но это супер медленно, раз в 10
может быть. Можно запускать в гибридном режиме, когда-то часть вычислений
происходит на видюхе с видеопамятью, а остальное на CPU в системной памяти,
тогда по-максимуму задействуется железо, но такие сепаты требуют задавать
параметры вручную, а это чуть сложнее однокнопочных Ollama и LM Studio, у
которых под капотом llama.cpp.

 Чем больше миллиардов параметров модель, тем больше нам нужно памяти,
плюс память на размер контекстного окна. Диск нужен только чтобы загрузить
модель в память/видеопамять, и тут вообще проблемы нет.

 Для уменьшения требования к объёму памяти, можно использовать
квантованные модели, что ухудшает качество, но в разы снижает потребление памяти.
Практически, на домашнем железе получается запускать либо квантованные но большие
модели, либо неквантованные но маленькие.

 По-сути сегодня есть два типа моделей. Dense-модели, когда нужно
каждый параметр пробегать для каждого токена - это долго, и вся модель
должна быть в памяти. MoE-модели (Mixture of Experts), когда только часть
параметров активна, т.е. модель может быть огромной, но не вся постоянно в
памяти. Возможно за MoE-моделями будущее, но там вопрос, правильно ли эти
самые эксперты выбираются из всех параметров.

Я приведу выдержки из моей локалки.
= local.cc (2:5015/46) ========================================================
 From : Egor Gavrilov                       2:5015/519      24 Dec 25 17:00:20
 To   : Nil A
 Subj : Локальный инференс
===============================================================================

[...]
 У меня gpt-oss-20b спокойно вертится на RTX 5060. MoE-слои выношу в проц,
Dense-слои и K/V-кэш - в VRAM.

 Qwen3-Coder 30B тоже спокойно работает. И всё это на лэптопе, с 32 гигами RAM,
и с 8 гигами VRAM. Но заряд аккума сжирает будь здоров.

 Почему решил ноут взять? Потому что без портативности всё равно мне никуда, к
сожалению. Я люблю, когда моя лошадка всегда со мной - и в доме, и между
домами.

 NA> Кайф маков на арме, что у них вся память плоская - если у тебя 24ГБ
 NA> (маркетологи хуевы тут поработали), то это и под рам и под вирам.
 NA> Писюковые (всмысле x86) видюхи имеют свою вирам на борту, и только с
 NA> ней они могут работать. Модельки на 6 миллиардов квантованная целиком
 NA> залазит в вирам, и быстро генерируют токены. Но кайф llama.cpp, что я
 NA> можу указать, сколько слоёв обрабатывается на видюхе, сколько на
 NA> проце, а на проце у меня есть рамы на 64 гига, но писец тормозно. Я
 NA> пробовал "взрослые" модели, они все на ЦПУ у меня идут, зажирая 64ГБ,
 NA> но неюзабельно по скорости.

 Ну камон, почему не MoE? У меня на Dense-моделях тоже максимум 8B параметров.
А MoE позволяет выжать и 20, и даже 30 лярдов параметров.

 NA> Итого, я ограничен в домашних экспериментах кинуть несколько уровней
 NA> на ГПУ 8ГБ, и остальное на ЦПУ с 64ГБ, и довольно жирные опенсорц
 NA> модели пробовал. Всё что можно выжить из такого железа, с пиздецовым
 NA> временем ожидания - уровня ChatGPT 3.5. Говорят, что опенсорц
 NA> модельки типа Qwen, или Deepseek, с дох@я миллиардов, могут типа
 NA> ChatGPT 4o уровня решать задачки, что за@бись. Но даже со своим
 NA> железом, в домашних условиях, я могу фидошные сообщения прогонять
 NA> через токенайзер и ибеддинг, чтобы, например, искать по сообщениям.
 NA> Но даже на 8 миллиардах llama или 7b mistral, я могу немного
 NA> попросить обощить прочитанное.

 Я спокойно юзаю gpt-oss-20b, и качество вполне себе неплохое (в плане агентной
разработки, например). Qwen3-Coder, по моему мнению, с тем же Continue не
дружит особо. Но возможно, что дружит с тем же Roo Code, VeAI, и другими
плагинами. Ибо Continue само по себе далеко не лучший именно как агент.
===============================================================================

Best Regards, Nil
--- GoldED+/LNX 1.1.5-b20250409
 * Origin: Gemini can make mistakes, so double-check it (2:5015/46)
SEEN-BY: 50/701 452/28 460/58 463/68 4500/1
5001/100 5010/352 5015/42 46 120
SEEN-BY: 5015/255 519 5020/570 715 830 848 1042
4441 12000 5023/24 5030/49
SEEN-BY: 5030/115 722 1081 5031/71 5053/55 58 400
5080/102 6035/66 6055/7
SEEN-BY: 6078/80
@PATH: 5015/46 5020/4441



   GoldED+ VK   │                                                 │   09:55:30    
                                                                                
В этой области больше нет сообщений.

Остаться здесь
Перейти к списку сообщений
Перейти к списку эх