Жасанды интеллект негізіндегі алғашқы ұлттық тіл моделі көпшілікке жарияланды. Қазақстанда мемлекеттік тілде үлкен деректер жиынында оқытылған irbisgpt ашық бастапқы коды бар алғашқы ұлттық тіл моделі қолжетімді болды. Әзірлеушілер ресми шығарылымды танымал ресурста жариялады. Енді әрбір қазақстандық тіл моделін сынап, оны қазақ тілінде оқытуға өз үлесін қоса алады.
IrbisGPT — бұл MOST Holding-пен бірлесіп жасалған қоғамдық коммерциялық емес бастама және Gen2b.ai, бизнесте жасанды интеллектті қолдануға мамандандырылған студия.
"IrbisGPT – жасанды интеллектті қолдану арқылы қазақ тілін дамыту саласындағы пионерлік жоба. Бастаманың мақсаты-қазақ тілін сақтау және тарату және оны Қазақстанда қоғамды, экономиканы және ғылымды дамыту үшін заманауи цифрлық технологияларға ықпалдастыру. Біз жобаны оның айналасына комунити жинап, қазақ тілін дамыту энтузиастарына оны сынауға және модельді оқытуға өз үлесін қосуға мүмкіндік беру үшін ашық қолжетімділікке қойдық", - деді жоба фаундері Бахт Ниязов.
Көктемде жарияланған алдын-ала шығарылыммен салыстырғанда, irbisgpt-тің қазіргі нұсқасы оқудың керемет әлеуетін көрсетеді. Әзірлеушілердің айтуынша, мұндай опенсорлық модельдер ағылшын тілінде жауап беруге тырысады немесе жай ғана қазақ тілінде кездейсоқ сөздермен "құйылады". Бірақ ұзақ мерзімді оқытудың арқасында ұлттық тіл моделі контекстсіз сұрақтарға толық және дұрыс жауап береді. Мәселен, IrbisGPT мемлекеттік тілде "шөп неге жасыл?" деген сұрағына жауап бере алады. Сондай-ақ Қазақстан президентінің кім екенін, жылына қанша күн болатынын, тіпті өмірдің мәні туралы философия жасай алатынын біледі.
"Өте қысқа уақыт ішінде біз әсерлі нәтижелерге қол жеткіздік. IrbisGPT қазақ тілінің сөздері мен грамматикасының құрылысын түсініп қана қоймай, кіріс ақпаратын өңдей алады, қарапайым сұрақтарға жауап беруге үйретілген, контекстпен жұмыс істей алады, бұл оны өзекті білім базаларына, Салық кодексіне қосуға мүмкіндік береді, мысалы, тиісті ақпарат алудың пайдалы құралы бола алады, - деді Армен Атаян.
– Сондай-ақ тиімдірек токенизатордың арқасында мемлекеттік тілде мәтінді генерациялау жылдамдығы GPT модельдерімен салыстырғанда үш-бес есе өсті.
Модельді оқыту үшін әзірлеушілер қазақ тіліндегі жаңалықтар мен мақалалардан 20 гигабайт "шикі" деректерді пайдаланды, бұл сөздікті үш есеге жуық кеңейтті, – дейді Атаян.
"Алайда бұл жеткіліксіз, Біз IrbisGPT жетілдіру үшін мемлекеттік органдар тарапынан сапалы деректер ұсынуға үміттенеміз. Бізде нақты жоспар бар, ең бастысы — үлкен тілдік модельдер саласындағы барлық соңғы жетістіктерді пайдалана отырып, жаңа буын моделін құру дағдылары бар", — деп уәде берді компания басшысы.
Пікір қалдыру