„Obecnie świat stawia na modele open-source, które można uruchamiać lokalnie i dostosowywać do własnych potrzeb, specyficznych danych oraz oczekiwań konkretnej organizacji. To kluczowy krok w budowaniu niezależności technologicznej i uniezależnieniu się od zagranicznych dostawców.” –wskazuje Sebastian Kondracki z firmy Deviniti, współtwórca modelu Bielik. „Język polski jest pełen niuansów, kontekstu kulturowego i subtelności komunikacyjnych, które mają ogromne znaczenie w interakcjach z użytkownikami. Zagraniczne modele, nawet jeśli są dobrze wytrenowane na polskich danych, nigdy nie osiągną takiej precyzji jak modele rozwijane lokalnie. Ważna jest również kwestia bezpieczeństwa danych. Korzystanie z zagranicznych rozwiązań wiąże się z ryzykiem wycieku wrażliwych informacji, co jest szczególnie istotne w sektorach takich jak bankowość, ubezpieczenia czy administracja publiczna. Posiadanie krajowego modelu pozwala na pełną kontrolę nad danymi, ich przechowywaniem i przetwarzaniem, co ma fundamentalne znaczenie w kontekście zgodności z regulacjami, takimi jak RODO oraz budowania zaufania do sztucznej inteligencji w Polsce.” – dodaje.
Podobnego zdania jest dr hab. Piotr Pęzik, prof. UŁ współtwórca modelu PLLuM, który zwraca uwagę, że „mimo, iż wszystkie popularne generatywne modele językowe są wielojęzyczne, to z oczywistych względów język polski nie jest dominującym źródłem danych tekstowych w żadnym z nich. Konsekwencją tego faktu jest nieprzewidywalna jakość językowa modeli wielojęzycznych w różnych typach funkcjonalnych i gatunkach generowanych tekstów. Tak jak nie można zrobić bardzo dobrego modelu ogólnego przeznaczenia opierając się tylko na danych polskich, tak również nie można stworzyć modelu, który konsekwentnie generuje poprawną stylistycznie i funkcjonalnie polszczyznę bez oryginalnych polskich danych treningowych w postaci wysokiej jakości tekstów, instrukcji i preferencji używanych do dostrajania modeli. Im większy mamy wpływ na proces treningu modeli językowych, tym lepiej możemy kontrolować ich zachowanie oraz preferencje. Jest to ważny aspekt bezpieczeństwa modeli, które mogą być narzędziem subtelnej propagandy wynikającej ze specyfiki procesu ich dostrajania. Powinniśmy zatem znać od podstaw cały proces wytwarzania generatywnych modeli językowych i rozwijać własną technologię generatywnej sztucznej inteligencji.”
Model PLLuM
To efekt współpracy ekspertów konsorcjum zrzeszającego polskie instytucje naukowe, w skład którego weszły: Politechnika Wrocławska, która jest liderem projektu, Państwowy Instytut Badawczy NASK, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy, Instytut Slawistyki Polskiej Akademii Nauk oraz Uniwersytet Łódzki (kierownikiem projektu w ramach UŁ jest dr hab. Piotr Pęzik, prof. UŁ z Wydziału Filologicznego). Celem PLLuM jest stworzenie otwartego polskiego modelu językowego, opartego na zróżnicowanych zbiorach danych uwzględniających specyfikę i złożoność naszego języka. Będzie on między innymi pozwalał na interakcje w języku naturalnym i stwarzał możliwość dostosowania do zróżnicowanych potrzeb firm, podmiotów administracji państwowej czy instytucji naukowo-badawczych. Przykładowo, model zostanie wykorzystany w procesie automatyzacji przetwarzania dokumentów, analizy ich treści, wyszukiwania informacji (np. inteligentny asystent urzędniczy, wirtualny asystent w mObywatel itp.), a także w procesie rozwoju zaawansowanych aplikacji edukacyjnych.
Szczegółowe informacje dotyczące projektu są dostępne na stronie PLLuM
Model jest dostępny: https://pllum.clarin-pl.eu/
Model Bielik
Jest efektem pracy Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH. Co ciekawe, Fundacja SpeakLeash to inicjatywa open-science w skład, której wchodzą pasjonaci AI (np. pracownicy polskich przedsiębiorstw, badacze z ośrodków naukowych oraz studenci kierunków związanych z obszarami sztucznej inteligencji). Głównym założeniem tego projektu jest stworzenie modelu, który będzie uwzględniał specyfikę polskiego języka i kultury (np. idiomy, synonimy, regionalizmy), a także uchwyci jego złożoność i niuanse. Model gwarantuje bezpieczeństwo danych (działa w obrębie danej organizacji, korzystając z jej wewnętrznych zasobów). Wymaga konfiguracji, tak aby np. odpowiadać na pytania w oparciu o wiedzę danej firmy czy instytucji bez ryzyka wycieku danych. Możliwe jest jego dostosowanie do posiadanej infrastruktury, a także specyficznych potrzeb i możliwości. Po model sięgnęły już banki, firmy ubezpieczeniowe i instytucje publiczne, które implementują i adaptują ten model w swoich procesach biznesowych
Informacje o projekcie są dostępne na stronie: speakleash.org/dashboard
Model można testować: https://bielik.ai/ a także za pośrednictwem: LM Studio (https://lmstudio.ai/) i Jan.AI (https://jan.ai/).
Model QRA
Modele QRA (OPI-PG/Qra-1b, OPI-PG/Qra-7b, OPI-PG/Qra-13b), powstały w wyniku współpracy Politechniki Gdańskiej i AI Lab Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB). Mogą one znaleźć swoje zastosowanie jako wsparcie np. dla pracowników naukowo-badawczych, instytucji państwowych czy firm (np. jako element rozwiązań informatycznych, które wymagają jednak dobrego rozumienia i posługiwania się językiem polskim). Ponieważ modele QRA nie są typowymi modelami konwersacyjnymi, ich implementacja i adaptacja wymaga wiedzy ekspertów z dziedziny AI, którzy będą w stanie je trenować na własnych danych, tak aby dostosować je do konkretnych potrzeb i problemów danej instytucji czy firmy. Modele nie tylko rozumieją treści w języku polskim, ale także potrafią np. dokonać klasyfikacji tekstów, przygotować ich streszczenie czy stworzyć spójny tekst.
Modele QRA są dostępne w repozytorium: https://huggingface.co/OPI-PG
Dr hab. inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego, współautor QRA, podkreśla, że „zdecydowanie warto budować i rozwijać polskie LLM-y. Sprawdzają się one lepiej dla tekstów opublikowanych w naszym języku. Warto jednak zastanowić się, czy koniecznie musimy się ścigać z USA i Chinami w budowaniu takich modeli. Z badań rynkowych wynika, że ponad 90% małych, średnich i nawet dużych firm, nie potrzebuje asystenta do otwartej rozmowy na każdy temat. Bardziej przydatne są dla nich dedykowane LLM-y, które będą dotyczyć 10-20 konkretnych scenariuszy. Ponadto, tam gdzie występuje ryzyko utraty przewagi konkurencyjnej bazującej na prywatnych danych, będziemy szli w dużo mniejsze modele szyte na miarę konkretnych firm lub jednostek akademickich i naukowych, uwzględniając pewne kryteria (np. w obszarze znajomości tematów typowych dla naszej kultury czy historii).”
Narodowe, w tym polskie, LLM mogą już wkrótce stać się ważnym narzędziem w budowaniu przewagi konkurencyjnej poszczególnych krajów, ich gospodarek i społeczeństw. Warto jednak obok zachwytu nad nimi, pamiętać, że to człowiek pozostaje odpowiedzialny za ich etyczne i odpowiedzialne wykorzystanie.
Opracowanie: dr Dominika Kaczorowska-Spychalska, prof. UŁ we współpracy z: dr hab. Piotr Pęzik, prof. UŁ, Sebastian Kondracki, dr hab. inż. Jarosław Protasiewicz