1) Dlaczego medycyna jest „najtrudniejsza” dla AI
Medycyna łączy precyzję naukową, wrażliwość etyczną i krytyczne konsekwencje błędów, dlatego stanowi obszar wysokiego ryzyka dla tłumaczeń automatycznych. Modele AI operują prawdopodobieństwem językowym, a nie rzeczywistym rozumieniem patofizjologii, procedur klinicznych czy regulacji. W efekcie teksty wyglądają płynnie, lecz bywają merytorycznie błędne, co jest szczególnie niebezpieczne w dokumentacji pacjentów, charakterystykach produktów leczniczych czy materiałach dla personelu. W praktyce „ładnie brzmiące” zdanie może zawierać subtelną, ale krytyczną pomyłkę terminologiczną. Dlatego w medycynie korekta „po AI” nie jest luksusem, ale warunkiem bezpieczeństwa.
2) Błędy semantyczne (nieprawidłowe znaczenie)
Najpoważniejszą kategorią są błędy znaczeniowe, czyli „fałszywa poprawność”, gdy AI dobiera słowo formalnie pasujące, lecz semantycznie mylące. Przykład: “positive margin” to nie „pozytywny margines”, ale „dodatni margines” (czyli obecność komórek nowotworowych w linii cięcia). Podobnie “negative predictive value” to „ujemna wartość predykcyjna”, nie „negatywna wartość przewidywania”. Modele mylą też “sensitivity” (czułość testu) z „wrażliwością” pacjenta. Każda z tych pomyłek zmienia wnioski kliniczne, a więc wpływa na diagnozę i terapię.
3) Błędy terminologiczne (fałszywi przyjaciele i kalki)
Kolejna grupa to błędy terminologiczne wynikające z fałszywych przyjaciół i dosłownych kalek. “Compliance” to w kontekście pacjenta „przestrzeganie zaleceń”, a nie ogólne „zgodność”. “Outcome” to „wynik leczenia” lub „punkt końcowy”, a nie „rezultat” w dowolnym sensie. “Device” w IFU bywa mylone z „urządzeniem” w sensie elektronicznym, gdy chodzi o wyrób medyczny specyficznej klasy ryzyka. Kiedy AI „zmywa” niuanse, tekst traci zgodność z nomenklaturą standardów (np. MedDRA, SNOMED CT), co utrudnia audyt i zwiększa ryzyko.
4) Skróty i akronimy (dwuznaczności i regionalizmy)
AI często błędnie rozszyfrowuje skróty, bo ten sam akronim znaczy co innego w różnych działach medycyny lub krajach. “RA” może oznaczać reumatoidalne zapalenie stawów (rheumatoid arthritis), ale też right atrium (prawy przedsionek) czy room air (powietrze atmosferyczne w kontekście saturacji). “ARDS” to zespół ostrej niewydolności oddechowej, a nie „ostry dystres oddechowy” w publicystycznym, nienaukowym sensie. Błędne rozwinięcie skrótu zmienia cały sens zdania i może prowadzić do złej interpretacji danych pacjenta.
5) Rejestr i ton wypowiedzi (dla pacjenta vs. dla lekarza)
Modele mieszają rejestry: język o zabarwieniu naukowym trafia do ulotek dla pacjentów, a potoczny ton pojawia się w raportach dla komisji etycznych. Ulotka musi być zrozumiała, bez żargonu i z objaśnieniem ryzyka, natomiast protokół badania klinicznego wymaga precyzji i terminologii zgodnej z ICH-GCP. Jeżeli AI nie rozpozna odbiorcy, powstaje tekst „ani dla pacjenta, ani dla lekarza” – zbyt trudny dla jednego i zbyt nieprecyzyjny dla drugiego. To obniża użyteczność dokumentu i naraża na reklamacje.
6) Jednostki, zakresy, znaki i zapisy (mikrobłędy o dużych skutkach)
W dokumentacji medycznej liczą się szczegóły: mikrogramy vs. miligramy, mg/dl vs. mmol/l, zakresy referencyjne, przedziały ufności. AI potrafi zachwiać formatowaniem (np. spacje w liczbach, zamiana kropki i przecinka dziesiętnego), błędnie znormalizować jednostki lub pominąć znak „±”. Pomyłka z μg na mg to tysiąckrotność dawki — błąd krytyczny. Nawet niepozorne „uładnianie” liczb przez model bywa ryzykowne, bo ingeruje w dane. Tu właśnie niezbędna jest kontrola człowieka i QA narzędziowe.
7) Lokalna praktyka i system ochrony zdrowia (fałszywa lokalizacja)
AI nie wie, jak działa polski system świadczeń, jakie są skróty NFZ, jak brzmią nazwy świadczeń gwarantowanych czy nazwy stanowisk. Zdarza się więc, że tworzy „ładnie brzmiące” kalki instytucjonalne, które nie istnieją w realu. W materiałach informacyjnych dla pacjentów lub w raportach dla płatnika to może kompromitować wiarygodność placówki. Lokalizacja medyczna wymaga nie tylko języka, ale i znajomości realiów systemowych.
8) Halucynacje źródeł i danych (wplatanie „ładnych” lecz nieistniejących faktów)
Modele potrafią „dopowiadać” bibliografię, sugerować rzekome wytyczne towarzystw naukowych lub wstawiać nieistniejące dane rejestrowe. W publikacjach naukowych lub materiałach HTA jest to absolutnie niedopuszczalne. Korekta „po AI” obejmuje więc weryfikację źródeł pierwotnych, a nie tylko języka. W praktyce to często najczasochłonniejsza część procesu, ale też najbardziej krytyczna dla wiarygodności.
9) Polisemie i pułapki słów codziennych (kiedy „zwykłe” słowo jest techniczne)
W medycynie wiele potocznych słów ma techniczne, wąskie znaczenie. “Shock” to nie „szok” emocjonalny, ale najczęściej „wstrząs”, a ten dzieli się na hipowolemiczny, kardiogenny, septyczny itd. “Lesion” to „zmiana chorobowa”, nie „rana” per se. “Tolerability” to nie „tolerancja” immunologiczna, lecz „tolerancja leczenia” (znośność). AI może brzmieć przekonująco, a mimo to przesuwać sens w stronę potoczności.
10) Styl naukowy: spójność hipotez, tryb warunkowy, ostrożność wnioskowania
Modele generujące ładną prozę często „dociskają” kategoryczne sądy tam, gdzie nauka wymaga ostrożności (np. „dowodzi”, zamiast „wskazuje”, „sugeruje”). W publikacjach medycznych modalności są kluczowe, podobnie jak transparentne ograniczenia badania. Przeniesienie nadmiernej pewności do języka polskiego może sugerować siłę dowodu, której nie ma. To błąd nie tylko stylistyczny, ale metodologiczny.



