Nп/п : 8 из 22
От : Nil A 2:5015/46 16 июл 24 03:47:02
К : Wild Cat 16 июл 24 03:52:02
Тема : Буква H
----------------------------------------------------------------------------------
@MSGID: 2:5015/46 6695c401
@REPLY: 2:5020/8912 6695b022
@CHRS: CP866 2
@TZUTC: 0300
@TID: hpt/lnx 1.9
* Originally in downgrade.talks
* Crossposted in nino.046.local
Hello, Wild!
Tuesday July 16 2024 02:21, from Wild Cat -> Nil A:
DO>>>> Скорее всего строят ботов типа Дениса Моско - и когда эти боты
DO>>>> сталкиваются с буковой H среди текста, они "теряют мысль", что
DO>>>> очень не нравится разработчикам - они ведь понимают что такая
DO>>>> проблема может
OR>>> Как разработчик ботов, скажу, что нормализовать текст с
OR>>> "лишними" буквами - не проблема. Один регехп.
NA>> Не думаю. Нельзя просто регекспом заменять английскую букву в
NA>> английских словах в русскую.
WC> Hужно проанализировать, из каких букв состоит слово. Если слово
WC> состоит из русских букв, но одна буква - английская "H", то её надо
WC> заменить.
WC> Предлоги "Hе", "Hу", "Hах" - считаются русскими словами, потому что
WC> там есть русская буква (хотя бы одна).
WC> Хотя, вариант "хотя бы одна" - не совсем правильный,
WC> лучше по условию "50% и более русских букв".
WC> А слов из одной буквы "н" и "h" - не существует.
Можно, конечно, и так сделать, даже без словарей.
Ещё есть задачка интересная - найти где в письме приветствие, и где
прощание с подписью. Стасу это нужно чтобы лучше женить с гейтом в Телеграм.
Мне нужно, чтобы попробовать верстать ленту, тоже как чат, может быть
такой режим чтения фидо будет удобным.
Стас предложил вырезать до первой пустой сроки - типа там
приветствие. А подпись за тремя чёрточкам, и может быть тоже выше брать до
пустой строки. Так грубо, и как-то сработает. Но по уму, надо заготовить
много датасета руками и натаскать какую-то модель на это.
Best Regards, Nil
--- GoldED+/LNX 1.1.5-b20240306
* Origin: FidoNet member since 1995 (2:5015/46)
SEEN-BY: 104/117 463/68 5001/100 5005/49 5015/46
255 5019/40 5020/400 715 830
SEEN-BY: 5020/848 1042 4441 12000 5030/49 115 1081
5049/3 5053/51 5061/133
SEEN-BY: 5068/45 5075/128
@PATH: 5015/46 5020/1042 4441