Materiały edukacyjne o weryfikowalnej rzetelności: definicja, metodyka Evidence‑First i architektura procesu

Autorzy
Zespół Luage
Afiliacja
Luage — Linguistic Usage & Guidance Engine
Typ
Artykuł badawczy (Compendium)
Wersja
1.1
Data
2026-01-10
Czas lektury
ok. 30–40 min

I. Streszczenie (Abstract)

Generatywne modele językowe (LLM) istotnie skracają czas redakcji materiałów dydaktycznych, lecz równocześnie wprowadzają ryzyko błędów merytorycznych, konfabulacji cytowań oraz niespójności definicji. W dydaktyce akademickiej — gdzie materiał jest podstawą oceny i transferu wiedzy — rzetelność musi być właściwością procesu wytwarzania, a nie „cechą” modelu.

W niniejszym artykule definiujemy „100% rzetelności” jako 100% weryfikowalności twierdzeń: każde twierdzenie zawarte w materiale ma przypisany dowód (źródło, obliczenie, uruchomienie kodu, dowód formalny lub podpis recenzenta), a publikacja jest blokowana, jeśli dowód nie istnieje. Następnie proponujemy architekturę produkcyjną (pipeline) obejmującą: korpus źródeł wersjonowany, atomizację twierdzeń, wiązanie z dowodami (provenance), deterministyczne weryfikatory, bramki jakości, audyt oraz regresję treści.

Teza operacyjna: „100%” dotyczy pokrycia twierdzeń dowodami (VCC=1.0), a nie absolutnej nieomylności świata. Jeżeli źródło jest błędne lub nieaktualne, mechanizmy wersjonowania i audytu umożliwiają korektę w kolejnej wersji materiału.
Słowa kluczowe: weryfikowalność, materiały edukacyjne, LLM, provenance, cytowania, bramki jakości, audyt, regresja, RAG
Abstract (EN) — brief, for international readers

Large language models can accelerate the editorial work behind educational content, but they also introduce factual errors, fabricated citations, and definitional drift. In academic education, reliability must be treated as a property of the production process, not the model.

We define “100% reliability” operationally as 100% verifiable claim coverage (VCC=1.0): every claim is bound to evidence (source excerpt, calculation trace, executable test, formal proof, or a reviewer signature). We then describe an evidence‑first pipeline with quality gates, audit trails, and regression testing for educational materials authored with AI assistance.

II. Wprowadzenie

Włączenie narzędzi generatywnej AI do dydaktyki jest dziś faktem organizacyjnym: modele językowe wspierają redakcję, streszczanie, tworzenie zadań i przykładów. Jednocześnie rośnie presja na dowodliwość treści: materiał ma być weryfikowalny przez studentów, recenzentów i organy jakości kształcenia, a proces jego wytwarzania powinien pozostawiać ślad audytowy. Zbiega się to z kierunkiem wytycznych instytucjonalnych dla edukacji oraz ram zarządzania ryzykiem i jakości AI. [3], [1], [6], [7]

II.a Problem badawczy

Główny problem można ująć następująco: w jaki sposób wykorzystać AI do wytwarzania materiałów edukacyjnych, nie tracąc kontroli nad prawdziwością, cytowaniami i spójnością definicji? W przeciwieństwie do klasycznej redakcji, generacja językowa skaluje się szybko, ale w sposób probabilistyczny — co wymusza inny reżim jakości.

II.b Teza i wkład artykułu

Tezą artykułu jest stwierdzenie, że „rzetelność” w kontekście generatywnej AI powinna być zdefiniowana i egzekwowana jako własność procesu. Wkład pracy obejmuje:

  • definicję operacyjną „100% rzetelności” jako 100% pokrycia twierdzeń dowodami (VCC=1.0),
  • architekturę pipeline od źródeł do publikacji, w której AI pełni rolę redaktora, a nie źródła prawdy,
  • zestaw weryfikatorów dopasowanych do typów twierdzeń (cytat, obliczenie, test, dowód formalny, recenzja),
  • bramki jakości oraz minimalny model audytu i regresji treści,
  • model organizacyjny (RACI) dla utrzymania odpowiedzialności w cyklu życia materiału.

II.c Zakres i założenia

  • Artykuł dotyczy materiałów tekstowych i mieszanych (tekst + kod + rachunki), w trybie publikacji kontrolowanej.
  • „100%” odnosi się do weryfikowalności twierdzeń (dowody), nie do ontologicznej nieomylności świata.
  • Wszędzie, gdzie twierdzenie nie może zostać dowiedzione deterministycznie, wymagamy jawnej recenzji eksperckiej.

III. Definicja operacyjna „100% rzetelności”

III.a Dwie definicje, których nie wolno mieszać

W dyskusji o wykorzystaniu generatywnej AI w edukacji często miesza się dwa porządki: (1) prawdziwość twierdzeń oraz (2) weryfikowalność twierdzeń. W kontekście publikacji materiałów dla studentów kluczowe jest to drugie: czy każde twierdzenie daje się sprawdzić w sposób powtarzalny (źródło, obliczenie, test, dowód formalny lub recenzja).

  • Prawdziwość: zgodność z rzeczywistością oraz ze stanem wiedzy (zmienna w czasie).
  • Weryfikowalność: możliwość sprawdzenia każdego twierdzenia na podstawie dowodu.

Ponieważ AI jest generatywne, a nie epistemiczne, praktycznym celem jest weryfikowalność — dokładnie tak, jak w inżynierii oprogramowania celem nie jest „ładny kod”, tylko kod przechodzący testy, audyt i standardy.

III.b Definicja operacyjna „100%”

Proponujemy definicję operacyjną:

\[ \text{VCC} = \frac{\#\{\text{twierdzenia z dowodem}\}}{\#\{\text{wszystkie twierdzenia}\}} \quad \Rightarrow \quad \text{VCC} = 1.0 \]
VCC (Verified Claim Coverage) — odsetek twierdzeń, dla których istnieje dowód: źródło (cytat), obliczenie, test lub dowód formalny.

„100% rzetelności” rozumiemy jako VCC = 1.0 plus brak „cichych” twierdzeń: jeżeli system nie potrafi przypiąć dowodu, ma prawo wyłącznie do jednej rzeczy — zatrzymać publikację albo jawnie oznaczyć fragment jako hipotezę/ćwiczenie do weryfikacji (w zależności od polityki kursu).

III.c Co jest „twierdzeniem” w materiałach edukacyjnych

Dla studentów twierdzeniem jest nie tylko zdanie „X jest prawdziwe”, ale także: [21]

  • definicja, prawo, interpretacja pojęcia,
  • wartość liczbową, parametry, jednostki,
  • krok w wyprowadzeniu,
  • fragment kodu lub wynik jego działania,
  • odniesienie bibliograficzne („jak podaje autor…”).

Dlatego „100% rzetelności” wymaga „atomizacji”: rozbicia treści na twierdzenia, które da się przypiąć do dowodu.

IV. Prace powiązane

Projektowanie procesu „weryfikowalnej rzetelności” naturalnie opiera się na dwóch nurtach badań: (a) systemach retrieval‑augmented (RAG) i infrastrukturze wyszukiwania dowodów, oraz (b) metodach zwiększania faktograficznej precyzji generacji długich form. W obszarze RAG klasyczne prace pokazują, że dołączanie do generacji zewnętrznych dokumentów redukuje presję na pamięć parametryczną modelu i ułatwia śledzenie źródeł. [9], [10], [11], [12], [13]

Drugi istotny wątek to integracja rozumowania i działania — czyli sytuacja, w której model nie tylko generuje tekst, lecz także wywołuje narzędzia (wyszukiwarki, kalkulatory, środowiska uruchomieniowe) i wykorzystuje wyniki jako dowody. Mechanizmy tego typu są opisywane m.in. w pracach dotyczących agentów i narzędziowego rozszerzania modeli. [14], [15]

Wreszcie, rośnie liczba prac, które wprost traktują „weryfikację” jako etap generacji (np. łańcuchy weryfikacji), co jest koncepcyjnie zbieżne z naszym postulatem bramek i audytu. [18]

V. Ograniczenia modeli językowych w roli autora treści

Modele językowe optymalizują prawdopodobieństwo sekwencji, a nie poprawność merytoryczną. W praktyce prowadzi to do czterech klas ryzyk: [8], [16], [17]

  1. Halucynacje faktów: pozornie pewne odpowiedzi bez dowodu.
  2. Konfabulacje źródeł: cytaty i bibliografie, które nie istnieją lub nie wspierają tezy.
  3. Błędy rachunkowe i jednostkowe: szczególnie w fizyce, chemii, ekonomii.
  4. Subtelna niespójność definicji: definicja w jednym miejscu nie pasuje do użycia w innym.
Wniosek projektowy: jeżeli materiał ma być rzetelny, model nie może być „autorem prawdy”. Model ma być operatorem języka (redakcja, parafraza, struktura), a prawda musi pochodzić z dowodów.

VI. Evidence‑First: kontrakt na twierdzenia i dowody

VI.a „Źródła prawdy” w edukacji

W zależności od kierunku studiów i kursu źródłami prawdy mogą być:

  • podręczniki i monografie wskazane w sylabusie,
  • materiały prowadzącego (slajdy, skrypty, notatki),
  • normy i standardy (np. ISO, RFC, dokumentacja języka),
  • publikacje naukowe (peer‑review),
  • zbiory danych i repozytoria referencyjne (z wersją i licencją).

VI.b Kontrakt na twierdzenia

W produkcyjnym podejściu do treści edukacyjnej warto przyjąć kontrakt: [2], [4]

Kontrakt: Każde twierdzenie w materiale ma identyfikator, typ, dowód (źródło/obliczenie/test), oraz „owner’a” merytorycznego. Bez tego materiał nie przechodzi bramki publikacji.

Ten kontrakt jest bezpośrednim odpowiednikiem kontraktu API w inżynierii oprogramowania. Treść edukacyjna jest „produktem”, który ma przejść walidację.

VII. Architektura procesu: od źródeł do publikacji

W tej sekcji przedstawiamy architekturę procesu wytwarzania treści edukacyjnych, inspirowaną praktykami inżynierii oprogramowania: wersjonowaniem zależności, testami, bramkami jakości i audytem. Celem jest zapewnienie, że wynik publikacji jest funkcją artefaktów i kontroli jakości, a nie jednorazowego promptu.

1
Korpus źródeł (wersjonowany)
Zbiór dokumentów: doc_id, wersja, licencja, odpowiedzialny owner.
2
Ekstrakcja twierdzeń (atomizacja)
Definicje, prawa, zależności, kroki wyprowadzeń, twierdzenia liczbowe.
3
Wiązanie z dowodami (provenance)
Każde twierdzenie ma evidence: cytat, obliczenie, test, dowód formalny.
4
Generacja językowa (AI jako redaktor)
Model składa materiał w strukturę dydaktyczną bez dodawania faktów.
5
Bramki jakości (lint + testy)
Cytowania, spójność, liczby, kod, format, standard językowy.
6
Recenzja i publikacja (audyt + regresja)
Podpis recenzenta, rejestr zmian, testy regresji na zbiorze złotym.

VII.a Diagram interaktywny: „Pipeline rzetelności”

Kliknij etap, aby zobaczyć: wejścia, artefakty, weryfikatory i typowe tryby porażki.

Pipeline rzetelności treści edukacyjnej
Od źródeł do publikacji — z dowodami, bramkami i audytem.
Źródła korpus + wersje Twierdzenia atomizacja Dowody cytaty / obliczenia Redakcja AI struktura + język Bramki lint + testy Publikacja audyt + regresja
Wybierz etap, aby zobaczyć szczegóły.
W trybie „rzetelności weryfikowalnej” każdy etap pozostawia artefakt, który da się audytować.

VIII. Typy twierdzeń i adekwatne metody weryfikacji

„Jedna walidacja” nie wystarczy, bo różne twierdzenia wymagają różnych weryfikatorów. Dla materiałów edukacyjnych warto mieć przynajmniej pięć klas: [23], [24], [25]

Klasa twierdzenia Przykład Weryfikator Artefakt dowodu
Definicje i fakty „Entropia to…” Źródła referencyjne + cytat doc_id + fragment + strona/sekcja
Liczby i rachunki „Średnia wynosi 12,3” Kalkulator / notebook (deterministycznie) zapis obliczeń + wejścia
Kod i algorytmy „Ta funkcja działa tak…” Uruchomienie + testy jednostkowe log wykonania + test report
Wyprowadzenia „Z równania wynika…” Sprawdzenie kroków + CAS / proof assistant dowód formalny lub ślad transformacji
Interpretacje „W praktyce oznacza to…” Recenzja ekspercka + spójność z definicjami podpis recenzenta + uzasadnienie

VIII.a Diagram interaktywny: „Twierdzenie → weryfikator”

Kliknij typ twierdzenia i zobacz rekomendowany zestaw weryfikacji oraz to, co należy archiwizować jako dowód.

Mapa weryfikacji
Twierdzenie → narzędzie deterministyczne → artefakt dowodu.
Definicje i fakty Liczby i rachunki Kod i algorytmy Wyprowadzenia / dowody Źródła + cytowania + kontrola wersji Notebook / kalkulator / CAS Uruchomienie + testy jednostkowe Proof assistant / weryfikacja kroków Artefakty dowodu doc_id + fragment notebook + wejścia raport testów dowód formalny podpis recenzenta trace_id + wersje
Kliknij typ twierdzenia po lewej.
Dobór weryfikatora determinuje, czy „100%” jest realne operacyjnie, czy tylko deklarowane.

IX. Bramki jakości: kryteria publikacji

Aby proces był rzetelny, musi istnieć jedna bezwzględna zasada: publikacja jest skutkiem przejścia bramek, a nie „końcowego promptu”. [5], [26], [27], [28], [29]

Minimalny zestaw bramek (proponowany)

  • Gate 1 — Coverage: VCC = 1.0 (każde twierdzenie ma dowód).
  • Gate 2 — Deterministyka: liczby, kod i wyprowadzenia mają deterministyczny ślad weryfikacji.
  • Gate 3 — Standard językowy: zgodność z praktyką firmy/uczelni (terminologia, ton, odmowy).
  • Gate 4 — Recenzja: podpis odpowiedzialnego recenzenta (rola, nie osoba).
  • Gate 5 — Regresja: zmiany nie psują „złotego zestawu” (testów i przykładów).

IX.a Diagram interaktywny: „Publish Gate”

Zaznacz bramki i zobacz, czy materiał może zostać opublikowany. To jest celowo „surowe”: brak dowodu oznacza STOP.

Publish Gate (symulator bramek)
Nie symulujemy prawdy — symulujemy spełnienie kryteriów procesu.
W prawdziwym wdrożeniu Gate 1 i Gate 2 zwykle są „twarde” (bez nich publikacja jest blokowana), a Gate 3–5 zależą od polityki instytucji.
PUBLISH: OK
Wszystkie bramki spełnione. Materiał może zostać opublikowany.
VCC
1.00
Audit
ON
Regression
PASS
Wyciąg ze śladu (trace)
{}
Jak czytać wynik?
„PUBLISH: OK” oznacza, że proces spełnia kryteria weryfikowalności. Nie oznacza „nieomylności świata”. Jeżeli źródło jest błędne lub nieaktualne, audyt i wersjonowanie pozwalają to wykryć i naprawić w kolejnej wersji.

X. Metryki i protokół ewaluacji

W materiałach edukacyjnych z AI najłatwiej wpaść w pułapkę „ładnych wskaźników”. Proponujemy trzy metryki, które są audytowalne i nie wymagają spekulacji: [19], [20], [22]

  1. VCC (Verified Claim Coverage): czy każde twierdzenie ma dowód.
  2. CPP (Citation–Proposition Precision): czy cytat faktycznie wspiera twierdzenie (kontrola ręczna na próbie + automatyczne heurystyki).
  3. RR (Regression Robustness): czy zmiana źródeł/polityki nie psuje złotego zestawu (testy).
Wskazówka: w edukacji lepiej mieć mniej metryk, ale takich, które prowadzą do decyzji („blokuj / publikuj / eskaluj”), niż dziesięć metryk, których nie da się obronić w audycie.
Protokół badawczy (minimum):
  1. Próbkowanie: zdefiniuj jednostkę oceny (lekcja, rozdział, zestaw zadań) i pobierz próbę reprezentatywną (np. 10–20 jednostek).
  2. Atomizacja: wyodrębnij twierdzenia i przypisz im typ oraz wymaganą metodę weryfikacji.
  3. Weryfikacja: uruchom weryfikatory deterministyczne (testy, notebooki) i/lub recenzję ekspercką; zapisz logi.
  4. Raport: wylicz VCC/CPP/RR i dołącz artefakty (źródła, wersje, dowody, decyzje bramek).
  5. Regresja: powtórz kroki po zmianie źródeł lub promptów; porównaj wyniki i opublikuj rejestr zmian.

XI. Odpowiedzialność i organizacja procesu (RACI)

Proces rzetelności nie działa bez odpowiedzialności. Minimalny podział ról:

Aktywność R (Responsible) A (Accountable) C (Consulted) I (Informed)
Korpus źródeł (wybór, licencje, wersje) Biblioteka / prowadzący Kierownik kursu Compliance Studenci
Atomizacja twierdzeń + evidence binding Asystent dydaktyczny + AI Prowadzący Eksperci dziedzinowi Redakcja
Weryfikatory deterministyczne (notebook, testy) Zespół narzędziowy Prowadzący TA/SE Redakcja
Recenzja Recenzent Prowadzący TA Studenci
Publikacja + rejestr zmian Redakcja Kierownik programu Compliance Studenci

RACI dla całego Luage znajdziesz w rozdziale Model odpowiedzialności (RACI).

XII. Aspekty dydaktyczne: alignment, obciążenie poznawcze, taksonomie

Weryfikowalność twierdzeń jest warunkiem koniecznym, lecz w dydaktyce akademickiej nie jest warunkiem wystarczającym. Materiał powinien być spójny z efektami uczenia się i metodami oceny — inaczej rzetelny tekst może nadal „uczyć nie tego, co trzeba”. Klasyczne ujęcie constructive alignment wskazuje, że cele, aktywności i ocena muszą tworzyć zamknięty układ, a nie luźną kompilację tematów. [30]

Drugim krytycznym wymiarem jest kontrola obciążenia poznawczego: nawet poprawny materiał może być nieskuteczny dydaktycznie, jeżeli generuje nadmierny koszt przetwarzania (np. zbyt dużo nowych definicji naraz, brak przykładów, skoki poziomu trudności). W praktyce oznacza to konieczność projektowania struktury, przykładów i ćwiczeń tak, by redukować obciążenie zbędne oraz stopniowo budować obciążenie istotne. [31]

W materiałach wspieranych przez wizualizacje i elementy interaktywne warto dodatkowo uwzględnić zasady uczenia multimedialnego: diagram ma pomagać w budowie modelu mentalnego, a nie być wyłącznie ozdobą. [32]

Wreszcie, dobór zadań i pytań kontrolnych powinien odzwierciedlać poziomy taksonomii (od pamięci i zrozumienia, po zastosowanie, analizę i syntezę). To pozwala planować „ścieżkę trudności” i projektować regresję treści: jeżeli pytania na danym poziomie przestają być rozwiązywalne po zmianie źródeł, regresja wykryje to wprost. [33]

XIII. Ograniczenia i zagrożenia dla trafności

Definicja VCC=1.0 zapewnia, że treść jest weryfikowalna, lecz nie zwalnia z krytycznego doboru źródeł. Jeżeli korpus wejściowy zawiera błąd, pipeline może go „poprawnie” przenieść do materiału wraz z cytowaniem. Z tego powodu wersjonowanie i audyt należy traktować jako mechanizm kontrolowanej naprawy, a nie gwarancję absolutnej prawdy.

Druga kategoria ograniczeń dotyczy twierdzeń interpretacyjnych (np. wybór definicji, przyjęta konwencja, argumentacja). Takie fragmenty mogą być rzetelne tylko wtedy, gdy są jawnie oznaczone jako interpretacja oraz podlegają recenzji eksperckiej. W procesie Evidence‑First recenzja jest więc równorzędnym typem dowodu, obok testów i cytowań.

Wreszcie, należy brać pod uwagę koszty: pełna weryfikacja jest tańsza niż kryzysy w jakości kształcenia, lecz nadal wymaga inwestycji w bibliotekę źródeł, narzędzia weryfikacyjne i rolę recenzencką. Artykuł opisuje minimum organizacyjne, które pozwala te koszty kontrolować i przewidywać.

XIV. Wnioski

  1. Rozdziel „prawdę” od „weryfikowalności”. W praktyce instytucjonalnej rzetelność procesu oznacza VCC=1.0: brak dowodu blokuje publikację.
  2. Traktuj źródła jak zależności oprogramowania. Wersjonuj, pinuj i audytuj — inaczej nie istnieje stabilny punkt odniesienia dla treści.
  3. Atomizuj treść do poziomu twierdzeń. Bez rejestru twierdzeń nie ma dowodów, nie ma metryk i nie ma sensownej regresji.
  4. Używaj AI jako redaktora, nie jako świadka. Model może poprawić styl i strukturę, ale dowody muszą pochodzić z artefaktów weryfikacyjnych.
  5. Weryfikatory deterministyczne są obowiązkowe w liczbach, kodzie i definicjach operacyjnych; recenzja jest obowiązkowa w interpretacjach.
  6. Regresja treści jest konieczna wszędzie tam, gdzie materiał żyje dłużej niż jeden semestr.

Załącznik A. Minimalny szablon artefaktów edukacyjnych

Poniższy minimalny zestaw artefaktów służy temu, aby materiał był utrzymywalny w czasie (wersjonowalny, testowalny i audytowalny), niezależnie od tego, czy w redakcji wykorzystywano AI.

  • Źródła: lista doc_id + wersje + licencje.
  • Rejestr twierdzeń: claim_id, typ, treść, dowód, owner, status.
  • Weryfikatory: notebook/testy/dowody formalne (z wejściami i logami).
  • Raport bramek: VCC, CPP, RR + decyzja PUBLISH/BLOCK.
  • Rejestr zmian: co zmieniono, dlaczego, jakie testy przeszły.
Ten szablon można bezpośrednio zmapować na Luage: Compendium opisuje standard, a Engine egzekwuje bramki i prowadzi audyt.

Bibliografia (References)

Numery w tekście odsyłają do pozycji bibliograficznych poniżej. Linki zewnętrzne otwierają źródła pierwotne (standardy, artykuły, repozytoria).

  1. [1] NIST. Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST AI 100-1, Jan. 2023. doi: 10.6028/NIST.AI.100-1 · Available: PDF
  2. [2] NIST. AI RMF Generative AI Profile. NIST AI 600-1, Jul. 2024. doi: 10.6028/NIST.AI.600-1 · Available: PDF
  3. [3] UNESCO. Guidance for generative AI in education and research. UNESCO, Sep. 2023. Available: Publikacja
  4. [4] OECD. Recommendation of the Council on Artificial Intelligence. OECD/LEGAL/0449, May 2019. Available: PDF (OECD)
  5. [5] European Parliament & Council. Regulation (EU) 2024/1689 (Artificial Intelligence Act). Official Journal of the European Union, Jun. 2024. Available: EUR‑Lex (ELI)
  6. [6] ISO/IEC. ISO/IEC 42001:2023 — Information technology — Artificial intelligence — Management system. ISO, 2023. Available: Strona standardu
  7. [7] ISO/IEC. ISO/IEC 23894:2023 — Information technology — Artificial intelligence — Guidance on risk management. ISO, 2023. Available: Strona standardu
  8. [8] Lin, S.; Hilton, J.; Evans, O.. TruthfulQA: Measuring How Models Mimic Human Falsehoods. ACL 2022, 2022. doi: 10.18653/v1/2022.acl-long.229 · Available: ACL Anthology
  9. [9] Lewis, P.; Perez, E.; Piktus, A.; i in.. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020 (arXiv), 2020. doi: 10.48550/arXiv.2005.11401 · Available: arXiv
  10. [10] Guu, K.; Lee, K.; Tung, Z.; Pasupat, P.; Chang, M.-W.. REALM: Retrieval-Augmented Language Model Pre-Training. ICML 2020 (arXiv), 2020. doi: 10.48550/arXiv.2002.08909 · Available: arXiv
  11. [11] Borgeaud, S.; Mensch, A.; Hoffmann, J.; i in.. Improving language models by retrieving from trillions of tokens. arXiv, 2021. doi: 10.48550/arXiv.2112.04426 · Available: arXiv
  12. [12] Karpukhin, V.; Oguz, B.; Min, S.; i in.. Dense Passage Retrieval for Open-Domain Question Answering. EMNLP 2020 (arXiv), 2020. doi: 10.48550/arXiv.2004.04906 · Available: arXiv
  13. [13] Thakur, N.; Reimers, N.; Rücklé, A.; Srivastava, A.; Gurevych, I.. BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models. NeurIPS 2021 (arXiv), 2021. doi: 10.48550/arXiv.2104.08663 · Available: arXiv
  14. [14] Yao, S.; Zhao, J.; Yu, D.; i in.. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv, 2022. doi: 10.48550/arXiv.2210.03629 · Available: arXiv
  15. [15] Schick, T.; Dwivedi-Yu, J.; Dessì, R.; i in.. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023. doi: 10.48550/arXiv.2302.04761 · Available: arXiv
  16. [16] Patil, S. G.; Zhang, T.; Wang, X.; Gonzalez, J. E.. Gorilla: Large Language Model Connected with Massive APIs. arXiv, 2023. doi: 10.48550/arXiv.2305.15334 · Available: arXiv
  17. [17] Manakul, P.; Liusie, A.; Gales, M. J. F.. SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. EMNLP 2023 (arXiv), 2023. doi: 10.48550/arXiv.2303.08896 · Available: arXiv
  18. [18] Dhuliawala, S.; Komeili, M.; Xu, J.; i in.. Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv, 2023. doi: 10.48550/arXiv.2309.11495 · Available: arXiv
  19. [19] Thorne, J.; Vlachos, A.; Christodoulopoulos, C.; Mittal, A.. FEVER: a Large-scale Dataset for Fact Extraction and VERification. NAACL-HLT 2018, 2018. doi: 10.18653/v1/N18-1074 · Available: ACL Anthology
  20. [20] Wadden, D.; Lin, S.; Lo, K.; Wang, L. L.; van Zuylen, M.; Cohan, A.. Fact or Fiction: Verifying Scientific Claims. EMNLP 2020, 2020. doi: 10.18653/v1/2020.emnlp-main.609 · Available: ACL Anthology
  21. [21] Min, S.; Krishna, K.; Lyu, X.; i in.. FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation. EMNLP 2023, 2023. doi: 10.18653/v1/2023.emnlp-main.741 · Available: ACL Anthology
  22. [22] Liang, P.; Bommasani, R.; Lee, T.; i in.. Holistic Evaluation of Language Models. arXiv, 2022. doi: 10.48550/arXiv.2211.09110 · Available: arXiv
  23. [23] Wei, J.; Wang, X.; Schuurmans, D.; i in.. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv, 2022. doi: 10.48550/arXiv.2201.11903 · Available: arXiv
  24. [24] Yao, S.; Yu, D.; Zhao, J.; i in.. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv, 2023. doi: 10.48550/arXiv.2305.10601 · Available: arXiv
  25. [25] Chen, W.; Ma, X.; Wang, X.; Cohen, W. W.. Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks. TMLR 2023 (arXiv), 2023. doi: 10.48550/arXiv.2211.12588 · Available: arXiv
  26. [26] Ouyang, L.; Wu, J.; Jiang, X.; i in.. Training language models to follow instructions with human feedback. arXiv, 2022. doi: 10.48550/arXiv.2203.02155 · Available: arXiv
  27. [27] Bai, Y.; Jones, A.; Ndousse, K.; i in.. Constitutional AI: Harmlessness from AI Feedback. arXiv, 2022. doi: 10.48550/arXiv.2212.08073 · Available: arXiv
  28. [28] Mitchell, M.; Wu, S.; Zaldivar, A.; i in.. Model Cards for Model Reporting. FAT* 2019, 2019. doi: 10.1145/3287560.3287596
  29. [29] Gebru, T.; Morgenstern, J.; Vecchione, B.; i in.. Datasheets for Datasets. arXiv, 2018. doi: 10.48550/arXiv.1803.09010 · Available: arXiv
  30. [30] Biggs, J.. Enhancing teaching through constructive alignment. Higher Education, 1996. doi: 10.1007/BF00138871
  31. [31] Sweller, J.. Cognitive load during problem solving: Effects on learning. Cognitive Science, 1988. doi: 10.1016/0364-0213(88)90023-7
  32. [32] Mayer, R. E.. Multimedia Learning (2nd ed.). Cambridge University Press, 2009. Available: Google Books · Frontmatter (PDF)
  33. [33] Anderson, L. W.; Krathwohl, D. R. (Eds.). A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom's Taxonomy of Educational Objectives. Longman, 2001. Available: WorldCat