Skandální odhalení: V milionech vědeckých abstraktů jsou otisky umělých inteligencí  
Masivní analýza více než 15 milionů abstraktů vědeckých biomedicínských článků odhalila statisticky významné změny v používání slov, které jasně souvisejí s objevením velkých jazykových modelů typu ChatGPT nebo Gemini. V roce 2024 vzniklo nejméně 13,5 procent těchto článků se znatelným přispěním inteligencí. Svět se ale určitě nezboří.
Slova, jejichž frekvence se zvýšila v roce 2024. Kredit: Kobak et al. (2025), Science Advances.
Slova, jejichž frekvence se zvýšila v roce 2024. Kredit: Kobak et al. (2025), Science Advances.

Jen těžko tvrdit, že by tohle nikdo nečekal. Velké jazykové modely, jako ChatGPT (OpenAI) nebo Gemini (Google) se stávají více a více zralejšími a jejich výtvory je čím dál tím obtížnější rozeznat od lidských textů, pokud to kdy bylo stoprocentně možné. Teď se ukázalo, že vědci při psaní odborných textů používají umělé inteligence ve zcela masovém měřítku.

 

Dmitry Kobak. Kredit: Hertie Institute for AI in Brain Health.
Dmitry Kobak. Kredit: Hertie Institute for AI in Brain Health.

Dmitry Kobak z německé Eberhard Karls Universität Tübingen jeho kolegové analyzovali více než 15 milionů abstraktů biomedicínských publikací z platformy PubMed, a zjišťovali, zda lze vyčíst vliv velkých jazykových modelů z volby slov v těchto textech. Jejich výzkum odhalil, že od nástupu velkých jazykových modelů došlo v akademické literatuře k znatelným posunům v používání některých slov. Z dat vyplynulo, že přinejmenším 13,5 procent odborných biomedicínských článků, publikovaných v roce 2024, vzniklo se zapojením velkých jazykových modelů.

 

Vzhledem k tomu, že je od spuštění prvního ChatGPT ještě neuplynuly ani tři roky (listopad 2022), jde o úžasnou explozi technologie ve vysoce specializovaném a náročném prostředí. S tím ovšem souvisejí obavy, které se týkají přesnosti a věrohodnosti vědeckého výzkumu. Pikantní je, že Kobak a spol. použili stejný postup a nástroje, jako předtím pro zkoumání vlivu covidu-19 na mortalitu, jen tentokrát roli covidu-19 sehrály velké jazykové modely a namísto nadúmrtnosti (excess death) vědce zajímala frekvence různých nadbytečných výrazů (excess word) ve vědeckých textech.

 

Výsledky jsou pozoruhodné. Po příchodu velkých jazykových modelů došlo k citelnému posunu od nadbytečných „obsahových“ slov k nadbytečným „stylistickým a květnatým“ výrazům, jako např. „showcasing,“ „pivotal“ nebo „grappling.“ Kobak s kolegy rovněž zjistili, že po zavedení velkých jazykových modelů také došlo ke změně slovních druhů nadbytečných slov. Před rokem 2024 to byly v 79,2 procentech případů podstatná jména, zatímco pak 66 procent nadbytečných slov tvořila slovesa a 14 procent přídavná jména.

Celé je to jako letní shakespearovské drama. Vědecká obec je očividně stále v hlubokém šoku, že se ocitli mezi prvními, kteří mohou být přinejmenším z části nahrazeni umělými inteligencemi. To nepochybně vede k nevraživosti vědy vůči generativním inteligencím, přinejmenším na oficiálnějších úrovních, která se ventiluje jako rozmanitá podezření a zákazy.

 

Logo. Kredit: Eberhard Karls Universität Tübingen.
Logo. Kredit: Eberhard Karls Universität Tübingen.

Přitom je samozřejmě úsměvné se domnívat, že by lidští vědci byli, na rozdíl od inteligencí, naprosto vždy zcela přesní, bezchybní, důvěryhodní a zcela poctiví. Většinou nepochybně ano, ale ruku do ohně za to nedáte. Současně je ale obdivuhodné, bez ironie, jak se vědci bleskurychle dokázali adaptovat na velké jazykové modely a dnes je již rutinně používají při každodenní práci. To není ostuda, ale důkaz, že si zaslouží svou pověst průkopníků. Jak to v podobných případech bývá, nejlepší bude nalézt střední cestu. Nezavrhovat plošně inteligence, protože to je skvělý nástroj a už určitě nezmizí – a současně v plném provozu řešit problémy, k nimž dochází kvůli jejich používání. Ono to půjde.

 

Video: Statewide Biobank Seminar Series-Dr Dmitry Kobak-Paper mills in the landscape of biomedical research

 

Video: Scientist Stories: Dmitry Kobak, Embeddings for Scientific Visualization

 

Literatura

Phys.org 6. 7. 2025.

Science Advances online 2. 7. 2025.

Datum: 09.07.2025
Tisk článku



Diskuze:

Žádný skandál se nekoná

Alexandr Malusek,2025-07-09 19:57:20

Nejprve se napíše článek. Ten se následně nahraje do ChatGPT a jako prompt se zadá například: „Přiložený dokument bude zaslán do vědeckého časopisu XX. Napiš abstrakt o délce maximálně XX slov.“ ChatGPT ve většině případů vygeneruje velmi kvalitní text, který je potřeba upravit nanejvýš v několika málo slovech. Pokud je úprav potřeba více, bývá vhodnější mírně přeformulovat odpovídající části manuskriptu – pokud má ChatGPT problém s vypíchnutím klíčových bodů, budou s tím mít problém pravděpodobně i čtenáři.

Články čistě matematického charakteru jsem pomocí ChatGPT nezpracovával, ale pro fyzikální a lékařské články tento postup funguje velmi dobře. Používám jej já i všichni moji kolegové již několik let.

Z hlediska vědecké etiky nejde o problém, a to z důvodů, které již byly zmíněny v diskuzi. Je však důležité pročíst si instrukce pro autory – některé časopisy totiž vyžadují, aby bylo použití AI při tvorbě textu uvedeno například v části Acknowledgements. Pokud si autor není jistý, jak takové prohlášení formulovat, stačí situaci popsat ChatGPT a ten navrhne vhodné znění.

Návody, jak využívat ChatGPT při psaní vědeckých článků, jsou běžným tématem seminářů na vysokých školách. ChatGPT je nástroj, nikoli myslící bytost. Při jeho použití v souladu s pravidly vědecké etiky není nic skandálního.

Odpovědět

Abstrakt

Jaroslav Kousal,2025-07-09 16:59:07

Je potřeba si uvědomit, že abstrakt ve vědeckém článku má specifickou roli.

Za prvé, i když je předřazen před tělo článku, téměř vždy je psán jako poslední. Pro jeho sepsání není (a de facto nesmí být) z hlediska obsahového použito nic, co by již nebylo napsáno.

Za druhé, je dostupný u článků s otevřeným přístupem (Open Access) i u tradičně (subscription-based) publikovaných článků, kde se k samotnému tělu článku legálně zdarma nedostanete.

Za třetí, má vcelku standardizovaný rozsah (kolem 200 slov), do kterého je třeba je dostat dost údernosti, východisek i zásadních závěrů, aby to cílové publikum - tj. hlavně vědecké kolegy - lákalo si přečíst článek celý.

Kombinace těchto faktorů znamená, že je extra vhodný pro LLM - a to na vstupu i na výstupu. Je snadno dostupný pro různě web scrapery, takže učících dat na to, jak má vědecký abstrakt vypadat, je přehršel. Současně na výstupu je úkol z delšího textu udělat kratší - jedna z úloh, která je pro LLM naprosto ideální. Současně ne každý vědec je současně i slohově nadán - v těle článku to tolik nevadí, v abstraktu se ta "vstupy omezená kreativita" LLM výborně hodí.

Celkově mě tedy nepřekvapuje, že zrovna k tomuto LLM vědci začínají používat. Dokud jde o abstrakt, nemyslím si, že je to velký problém, protože faktografie není nutně vylhaná. Vůbec nevylučuji, že LLM mohou generovat objektivně lepší abstrakty, než leckterý lidský autor.

Zajímavé by bylo porovnat korelaci (a antikorelaci) znaků používání LLM mezi abstraktem a tělem článku nebo i v různých částech článku ("Introduction" je další horký kandidát, řekl bych). Ne nutně použití "slohových" možností LLM musí znamenat ústupky z faktické správnosti nebo původnosti samotných dat.

(tento komentář byl napsán BEZ použití LLM :)

Odpovědět


Re: Abstrakt

Alexandr Malusek,2025-07-09 21:34:23

Pokud máte výsledky bádání, vlastní článek lze napsat za jedno odpoledne pomocí tohoto návodu (upraveno AI):

1. Formulujte cíl článku – 1–2 věty shrnující hlavní záměr.

2. Připravte vstupy – stručné body s popisem metod a výsledků.

3. Vytvořte části článku postupně:

- Nejprve Metody, poté Výsledky. Každou část zadávejte samostatně a uveďte, že jde o vědecký článek pro časopis XX.

4. Diskuze – nechte si navrhnout diskusní body, doplňte své poznámky a požádejte o sepsání celé sekce.

5. Závěr – shrnutí na základě předchozích částí.

6. Úvod – po vygenerování hlavního textu požádejte o vhodný prompt pro Deep Research a nechte výstup zestručnit do úvodní sekce.

7. Abstrakt – vytvořte na závěr z celého článku.

Praktické tipy:
- ChatGPT pracuje nejlépe s jasným kontextem a po částech.

- Vyhněte se generování delších částí najednou (Metody + Výsledky).

- Vždy připomeňte, že jste autorem a článek je určen k publikaci.

Každá věta a každé slovo musí být ověřeno expertem. Takže článek napíšete za odpoledne, ale pak strávíte několik dní ověřováním.

Odpovědět




Pro přispívání do diskuze musíte být přihlášeni



Zásady ochrany osobních údajů webu osel.cz