Sainmhíniú
Is modh é Foghlaim Threisithe ó Aiseolas Daonna (RLHF) chun samhlacha AI a ailíniú le luachanna daonna trí bhreithiúnais dhaonna a ionchorprú sa phróiseas oiliúna. Úsáidtear go minic é chun samhlacha teanga móra a mhionchoigeartú.
Cuspóir
Is é an cuspóir aschuir AI a dhéanamh níos sábháilte, níos úsáidí, agus ailínithe le roghanna daonna. Feabhsaíonn RLHF córais chomhrá trí fhreagraí díobhálacha, claonta, nó neamhábhartha a laghdú.
Tábhacht
- Soláthraíonn sé maoirseacht dhaonna ar oiliúint AI.
- Feabhsaíonn sé iontaofacht córas AI.
- Dianshaothair mar gheall ar riachtanais anótála daonna.
- Gaolmhar le samhaltú roghanna agus taighde ailínithe.
Conas a Oibríonn sé
- Bailigh aiseolas daonna agus déan comparáid idir aschuir mhúnla.
- Samhail luach saothair a oiliúint bunaithe ar roghanna daonna.
- Bain úsáid as foghlaim athneartaithe chun an tsamhail bhunúsach a choigeartú go mín.
- Déan measúnú ar fheidhmíocht i gcoinne spriocanna ailínithe.
- Déan athdhéanamh le haiseolas breise.
Samplaí (Saol Réadach)
- OpenAI ChatGPT: feabhsaithe le RLHF le haghaidh freagraí níos sábháilte.
- Intleacht Shaorga Bhunreachtúil Anthropic: treoraithe ag prionsabail seachas aiseolas díreach.
- InstructGPT: samhail luath OpenAI a léiríonn RLHF.
Tagairtí / Tuilleadh Léitheoireachta
- Christiano et al. “Foghlaim Dhomhain Athneartaithe ó Rogha an Duine.” NeurIPS 2017.
- Páipéar OpenAI InstructGPT.
- Creat Bainistíochta Riosca NIST AI.
- Cad is Foghlaim Neartú le hAiseolas Daonna (RLHF) ann?