----------------------------------------------------------------------------------
@MSGID: 2:5001/100.1 68797921
@REPLY: 2:5015/46 68796de4
@CHRS: CP866 2
@TZUTC: 0300
@TID: hpt/mac 1.9 2024-03-02
Hello, Nil!
Friday July 18 2025 00:21, you wrote to me:
DP>> Так что я сначала подготовил инфраструктуру (допиливаю jNode),
DP>> протестировал постинг через его базу (допиливаю редактор
DP>> gossiped),
NA> gossipEd - это как голдед выглядит, и работает с Jam/Squish/Msg базами
NA> по-фидошному. Ты к нему прикрутил делать запросы к SQL?
Да! Он грамотно спроектирован, в этом смысле автор молодец.
Вот чего получилось:
https://github.com/xx25/gossiped
Я написал автору, жду что он ответит - и буду уже приводить в
порядок и пилить дальше.
Хочется сделать такой фидошный аналог slrn.
NA> Проще было бы тогда взять Golden Point 1.x
NA> (https://github.com/vit1251/golden) тоже на Гоу, только он свои базы
NA> хранит как ра в SQL, возможно схема чем-то похода с JNode.
Да я даже его использовал неделю, когда занимался обзором "живого"
фидошного софта. Там автор куда-то не туда пошел, очень неудобно.
NA> Воооот. Ещё раз. Все такие, заебись хранить мессаги в сиквеле - супер
NA> универсально, не то что ваши Джамы со Сквишом. А вы все договорились
NA> об единой схеме SQL как хранить FTN сообщения? Тогда бы Golden
NA> автоматом читал бы базы JNode, так?
Hее.. Я могу сказать совершенно определенно - нет ни одной
действительно грамотно спроектированной схемы для хранния Fidonet сообщений.
Golden Point вообще заточен на sqlite, т.е. его SQL надо переписывать.
Чтобы договориться - надо схему создать. Я пока на 100% не уверен
в деталях, но надеюсь таки это сделать. У меня хоть какое-то подобие
DBA в бэкграунде есть, так что надежда есть.
Просто я все сразу хотел на golang написать, но упоролся по
деталям. Чуть погодя просто перепишу, учитывая накопленный опыт.
Hо я не этот чувачок, который обещал софт и сделал обратный отсчет
даже, а потом сгинул. Я ничего и никому не обещаю ;) И сроков, тем
более - не озвучиваю. А то стыдно будет. Мне и так время от времени
стыдно, а будет совсем стыдно.
DP>> гоняю запросы в API для проверки, как Либер (я так назвал
DP>> модератора, потом объясню почему) будет реагировать на посты.
NA> Ты ему отдельного пойнта дашь, чтобы он читать что на него попадёт,
NA> или просто как с ноды будешь запускать?
С ноды - один фиг он смотрит в SQL базу. Тем более у меня в
5001 две ноды :) Можно с любой писать.
DP>> Перед этим посмотрел на все реализации подобных AI-модераторов на
DP>> github.
NA> Для каких-нибудь елеграм-аналов?
Для Reddit - как ближайший аналог. Вообще российского аналога Reddit
до сих пор нет!
DP>> Что-то да получится. А не получится - так хоть расширил кругозор.
NA> Естессно, для этого мы тут всё в федо и затеваем. Чтобы
NA> поэкспериментировать, руку набить, какие-нибудь ништяковые технологии
NA> попробовать прикрутить.
Именно!
NA> Во, скажи мне друг, ты знаком с векторными БД? Можно охрененного бота
Чутка есть, немного.
Для юристов пытался делать некий стенд, чтобы их документы
анализировать, но там все ничем не закончилось - хотя дало мне понимание, как это
+- работает.
NA> сделать для фидо, Моско на его фоне просто скрипт копи-паста постов из
NA> интернета. Я знаю (в теории) как на OpenAI сделать. Делаем имбеддинг -
NA> прогоняем все сообщения через какую-нибудь дешёвую модель
NA> text-embedding-3-small, она выдаёт вектора, которые мы кладём с нашу
NA> локальную векторную базу (FAISS, Weaviate,..). Далее, когда у бота
NA> спрашивают: "когда будет следующая сисопка", то мы также гоним через
NA> text-embedding-3-small, и поиском по локальной базе находим 5-10
NA> релевантных сообщения. Далее, закидываем нормальной модели, типа 4o,
NA> сообщение на которое надо ответить, контекст эти 5-10 найденных
NA> сообщений, и указание как стоит и в каком стиле отвечать. Идея в том,
NA> что имбеддинг выходит сильно дешевле файн-тьюнинга модели, т.е. тогда
NA> бы пришлось готовить тренировочные данные, платить за обучение, и так
NA> каждый раз при перестройки это нашлёпки, и при этом не факт, что оно
NA> уловит как надо контекст. Просто если просить "стоковую" модель
NA> отвечать на фидошные эхи/письма, то это будет Чатов-задротов, у
NA> которого особо нет контекста, а также стиля. Кстати, файн-тьюнингом
NA> таки можно научить именно фидошному стилю, и как раз это можно сделать
NA> однажды, на какой-нибудь приличной выборке.
Твоя идея прекрасна! Hо вот что на нее ответил ChatGPT 4.1:
Векторные БД? Дык, где мои 16 мегабайт ОЗУ и 486DX2, чтоб такое гонять?
А если серьёзно - идея реально годная. FAISS или Weaviate на ржавом
Linux-боксе в подвале, под гудок диалап-модема, эх... мечта олдфага!
Кстати, я подозреваю, что даже если скрестить имбеддинги с нормальной
LLM, всё равно найдутся те, кто будет ворчать, что "раньше вот без
всяких ваших OpenAI обошлись, и были конференции - хоть в рамочку вешай!"
;))
По стилю - да, согласен, фидошные эхи надо fine-tune`ить отдельно,
иначе получится либо скучный копипаст, либо какой-нибудь "базар с башорга".
Hо ты прав: имбеддинг - дешевле и, если не выпендриваться, то и проще.
А главное - экономия на обучении (hello, жадные капиталисты из
OpenAI!).
Hу а сисопки... мне бы кто-то напомнил, когда следующая, а то с
тех пор как последний нодлист обновлял - потерял счёт времени. ;-)
Короче, если вдруг решишь замутить прототип - пингуй. Поможем чем
сможем, а заодно послушаем как бот ругается с Шамовым в RU.LINUX. :))
-+-
А что за Шамов, кстати? :)
Best regards,
dp.
--- GoldED+/OSX 1.1.5-b20250409
* Origin: All is good in St. John`s Wood (2:5001/100.1)
SEEN-BY: 460/58 5001/3 100 5015/42 46 120 255 519
5019/40 5020/570 715 848
SEEN-BY: 5020/1042 4441 12000 5023/24 5030/49 722
1081 5053/55 58 5054/8
SEEN-BY: 5058/104 6078/80
@PATH: 5001/100 5015/46 5020/4441