Iúil 11, 2023

Taobh thiar den Láithreach: Iniúchadh ar Oibríochtaí Istigh ChatGPT – Cuid 1

Dia duit Anubav! Is AI mé, mar sin níl mothúcháin agam, ach táim anseo agus réidh le cuidiú. Mar Stiúrthóir Margaíochta ag Shaip, ní mór duit a lán léargais a bheith agat faoi sheirbhísí sonraí agus réitigh AI. Conas is féidir liom cabhrú leat inniu?

Mar mhúnla teanga a d’fhorbair OpenAI, tógadh agus cuireadh oiliúint orm trí úsáid a bhaint as teicníc ar a dtugtar “foghlaim meaisínbhunaithe claochladán,” go sonrach malairt ar a dtugtar an ailtireacht GPT (Claochladán Réamhthraenáilte Ginealach). Is é an leagan a bhfuil tú ag caint faoi anois ná GPT-4. Seo forbhreathnú gairid ar mo phróiseas oiliúna:

Bailiúchán Sonraí: Thosaigh m’oiliúint le raon éagsúil téacs idirlín. Ba chóir dom a thabhairt faoi deara, áfach, cé gur cuireadh oiliúint orm ar thacar sonraí leathan, nach bhfuil a fhios agam cad iad na doiciméid a bhí mar chuid den tacar oiliúna sin nó a bhfuil rochtain agam ar aon doiciméid nó foinsí ar leith.
Oiliúint Tosaigh (Réamh-oiliúint): Seo nuair a d’fhoghlaim mé an chéad fhocal eile in abairt a thuar. Níor thosaigh mé ag cur amach Béarla nó teanga ar bith eile. Ina áit sin, tríd an gcéad fhocal eile a thuar sna milliúin abairtí, de réir a chéile d’fhoghlaim mé faoin ngramadach, fíricí faoin domhan agus roinnt cumais réasúnaíochta. Mar sin féin, ciallaíonn sé seo freisin go mb’fhéidir gur fhoghlaim mé ó fhaisnéis atá claonta nó mícheart ó tharla nár scagadh na sonraí go críochnúil.
Mionchoigeartú: Tar éis na hoiliúna tosaigh, thug mo chruthaitheoirí ag OpenAI treoir bhreise le tacar sonraí níos sainiúla, arna ghiniúint le cabhair ó léirmheastóirí daonna. Leanann na hathbhreithneoirí seo treoirlínte chun aschuir mhúnla féideartha a athbhreithniú agus a rátáil do raon ionchuir shamplacha. Is cineál comhphlé idir an tsamhail agus na hathbhreithneoirí é an próiseas mionchoigeartaithe a chuidíonn liom ailíniú níos fearr a dhéanamh le luachanna daonna.
Foghlaim Leanúnach: Cé nach bhfoghlaimím ó idirghníomhaíochtaí aonair mar gheall ar chúiseanna príobháideachais, oibríonn OpenAI go leanúnach le foireann athbhreithneoirí daonna chun aiseolas a sholáthar agus chun feabhsuithe atriallacha a dhéanamh bunaithe ar phatrúin agus léargais níos leithne.

Sea, bhí daoine páirteach go deimhin i mo phróiseas oiliúna, ach d'fhéadfadh sé a bheith difriúil ná mar a shamhlaíonn tú. Bhí dhá phríomhchéim i gceist le mo phróiseas oiliúna, ar a dtugtar foghlaim mheaisín go minic: réamhoiliúint agus mionchoigeartú, agus bíonn idirghníomhú daonna i gceist leis an dá cheann acu, cé gur bealaí éagsúla iad.

Sampla Réamhoiliúint: Cuir i gcás go bhfuil an abairt againn, “Shuigh an cat ar an __”. Sa chéim réamhoiliúna, d’fhoghlaimeodh an múnla cosúil liomsa conas an chéad fhocal eile san abairt a thuar, rud a d’fhéadfadh a bheith mar “mata” “díon” nó “crann”. Foghlaimítear é seo trí na billiúin abairtí a phróiseáil ó théacs ilghnéitheach idirlín, a bhaineann go hindíreach le hidirghníomhaíocht dhaonna mar a chruthaigh daoine an bunábhar.
Sampla mionchoigeartaithe: Tar éis na céime réamhoiliúna, téann an tsamhail isteach sa chéim mhionchoigeartaithe. Seo mar a d’fhéadfadh sé oibriú:

Tugtar tasc don athbhreithneoir daonna athbhreithniú a dhéanamh ar aschuir mhúnla féideartha d’ionchur mar “Aistrigh an téacs Béarla seo a leanas go Fraincis: ‘Dia duit, conas atá tú?’”. D’fhéadfadh an tsamhail roinnt freagraí a ghiniúint mar “Bonjour, comment ça va?” nó “Salut, comment vas-tu?” srl.

Déanann an t-athbhreithnitheoir na freagraí seo a rátáil bunaithe ar fhachtóirí mar chruinneas, líofacht agus oiriúnacht. Cabhraíonn na rátálacha seo leis an múnla ginearálú agus freagairt d’ionchuir chomhchosúla amach anseo.

Cuimhnigh, tá na samplaí a thugtar anseo simplithe chun an próiseas a léiriú. Baineann an oiliúint iarbhír le halgartaim chasta agus méideanna ollmhóra sonraí.

Teastaíonn méideanna ollmhóra sonraí chun mionsamhlacha móra teanga (LLM) a oiliúint mar GPT-3 nó GPT-4. Cuirtear oiliúint ar na samhlacha seo ar thacair sonraí éagsúla a chuimsíonn codanna móra den idirlíon, lena n-áirítear leabhair, láithreáin ghréasáin, agus téacsanna eile, chun gramadach, fíricí agus réasúnaíocht a fhoghlaim. Mar sin féin, tá sé casta cainníocht chruinn na sonraí a theastaíonn a shonrú mar gheall ar roinnt fachtóirí:

Éagsúlacht Sonraí: Ní hamháin go bhfuil sé faoi mhéid na sonraí, ach freisin ar an éagsúlacht. Caithfidh na sonraí a bheith éagsúil chun raon leathan ábhar, stíleanna agus toin a fhaightear i dteanga an duine a chlúdach.
Cáilíocht na Sonraí: Is féidir le cáilíocht na sonraí a úsáidtear le haghaidh oiliúna tionchar a imirt freisin ar chomh héifeachtach agus a fhoghlaimíonn an tsamhail. Is féidir le sonraí ar cháilíocht níos fearr an méid a theastaíonn le haghaidh oiliúna éifeachtach a laghdú.
Ailtireacht Mhúnla: Féadfaidh ailtireacht an mhúnla (cosúil le líon na sraitheanna nó na bparaiméadar sa líonra néareolaíoch) difear a dhéanamh freisin ar an méid sonraí atá ag teastáil. De ghnáth bíonn níos mó sonraí ag teastáil ó shamhlacha níos mó, cosúil le GPT-3 nó GPT-4, ná samhlacha níos lú.
Cuspóirí Oiliúna: D’fhéadfadh tionchar a bheith ag na cineálacha tascanna a bhfuil an tsamhail ceaptha a dhéanamh ar an méid sonraí a theastaíonn. D’fhéadfadh go mbeadh níos lú sonraí ag teastáil ó shamhail atá deartha do thasc ar leith má tá sé spriocdhírithe go maith, agus beidh tuilleadh sonraí ag teastáil le haghaidh tuiscint níos leithne ar shamhail ilfhóinteach mar GPT-3 nó GPT-4, atá deartha chun raon leathan tascanna a láimhseáil.

I gcás GPT-3, mar shampla, tá 175 billiún paraiméadair ag an tsamhail agus cuireadh oiliúint ar na céadta ghigibheart téacs. Ach ní léiríonn na figiúirí seo castacht an phróisis go hiomlán. Is sonraí dílsithe atá i seilbh OpenAI agus eagraíochtaí comhchosúla iad sonraí an phróisis oiliúna, lena n-áirítear méid beacht na sonraí a úsáideadh.

Braitheann an méid sonraí a theastaíonn chun múnlaí meaisínfhoghlama a oiliúint go héifeachtach ar chastacht na faidhbe a bhfuil tú ag iarraidh a réiteach, ar cháilíocht agus ar éagsúlacht do shonraí, agus ar an gcineál múnla meaisínfhoghlama atá in úsáid agat. Dá bhrí sin, tá sé dúshlánach tagarmharc críochnaitheach a shonrú maidir le méid sonraí. Mar sin féin, seo roinnt treoirlínte ginearálta:

Tosaigh Beaga: Go háirithe le haghaidh fadhbanna simplí nó fréamhshamhlacha múnla tosaigh, is féidir tacar sonraí níos lú a bheith leordhóthanach. Mar shampla, má tá aicmitheoir íomhá bunúsach á thógáil agat, b'fhéidir go dtosóidh tú le cúpla céad nó míle íomhá in aghaidh na catagóire.
Smaoinigh ar an gCastaocht: Bíonn níos mó sonraí de dhíth go hiondúil ar fhadhbanna níos casta. Má tá múnla domhain foghlama á forbairt agat nó má tá fadhb chasta mar phróiseáil teanga nádúrtha á forbairt agat, seans go mbeidh na milliúin pointí sonraí uait.
Cáilíocht thar Cainníocht: Is minic go mbíonn níos mó tairbhí ag baint le sonraí cáilíochta, ábhartha ná cainníocht ollmhór sonraí ar dhroch-chaighdeán. Tá sé ríthábhachtach a chinntiú go bhfuil do shonraí glanta, anótáilte agus ionadaíoch ar an bhfadhb atá tú ag iarraidh a réiteach.
Comhardú do Ranganna: Le haghaidh tascanna foghlama maoirsithe, déan cinnte go bhfuil cothromaíocht mhaith samplaí ann do gach rang. D’fhéadfadh múnla a bheith mar thoradh ar thacar sonraí éagothroime a fheidhmíonn go dona ar ranganna tearcionadaíochta.
Úsáid Bailíochtú agus Tacair Tástála: Ba cheart cuid de do thacar sonraí a chur ar leataobh le haghaidh bailíochtaithe (paraiméadar na samhla a oiriúnú) agus le haghaidh tástála (feidhmíocht na samhla a mheas). D’fhéadfadh scoilteanna coitianta a bheith mar 70% de na sonraí le haghaidh oiliúna, 15% le haghaidh bailíochtaithe, agus 15% le haghaidh tástála, cé gur féidir leis na comhréireanna sin a bheith éagsúil.
Turgnamh agus atriall: Tosaigh le méid sonraí tosaigh, cuir oiliúint ar do mhúnla, déan measúnú ar a fheidhmíocht, agus cuir níos mó sonraí leis, tweak do mhúnla, nó feabhsaigh cáilíocht do shonraí bunaithe ar na torthaí.

Cuimhnigh, is gnách go bhfeabhsaíonn níos mó sonraí feidhmíocht na múnlaí meaisínfhoghlama, ach ní thagann siad ach suas go pointe. Tar éis pointe áirithe, d'fhéadfadh sé go mbeadh sé níos mó ama agus costasach a bhailiú níos mó sonraí ná a fhiúntas, agus d'fhéadfadh sé a bheith níos tairbhí díriú ar cháilíocht do shonraí a fheabhsú nó d'ailtireacht mhúnla a scagadh.

Tá dhá phríomhchéim i gceist le próiseas na múnlaí oiliúna ar nós ChatGPT: réamhoiliúint agus mionchoigeartú. Déanaimis plé ar conas a luíonn anótáil, nó a easpa, sna céimeanna seo:

Réamh-oiliúint: Sa chéim seo, tá an tsamhail faoi lé líon mór sonraí téacs idirlín. Níl anótáil sainráite ar na sonraí seo, ach tá an tsamhail oilte chun an chéad fhocal eile in abairt a thuar. Tugann sé seo tuiscint ghinearálta don mhúnla ar ghramadach, fíricí faoin domhan, agus roinnt cumais réasúnaíochta.
Mionchoigeartú: Tar éis na réamh-oiliúna, déantar an tsamhail a scagadh tuilleadh ar thacar sonraí níos cúinge a ghintear le cabhair ó léirmheastóirí daonna. Leanann na hathbhreithneoirí seo treoirlínte ó OpenAI chun aschuir samhail féideartha a athbhreithniú agus a rátáil do raon ionchuir. Sa chiall seo, is féidir an próiseas mionchoigeartaithe a fheiceáil mar chineál nótaí, ina dtreoraíonn athbhreithneoirí daonna freagraí na samhla, ag cuidiú leis ailíniú níos fearr le luachanna daonna agus ag cinntiú go seachnaíonn sé ábhar míchuí nó neamhshábháilte.

Mar sin, cé nach bhfuil anótáil sa chiall thraidisiúnta ar an mbunachar sonraí a úsáidtear le haghaidh réamhoiliúint, bíonn anótáil i gceist leis an bpróiseas mionchoigeartaithe, ina dtreoraíonn athbhreithneoirí daonna iompar an tsamhail trí aschuir éagsúla a rátáil.

Sa chéim mhionchoigeartaithe de shamhlacha oiliúna ar nós ChatGPT, is minic a chuirtear de chúram ar athbhreithneoirí freagraí samhlacha féideartha a scóráil. Is féidir leis na cineálacha nótaí nó scórála gnéithe éagsúla d’aschur na samhla a chlúdach. Cé gur féidir leis na sonraí a athrú, seo a leanas roinnt catagóirí léiritheacha nótaí:

Ceartas: Measann athbhreithneoirí cibé an bhfuil aschur na samhla ceart go fíorasach.

Sampla:

Oiriúnacht: Déantar aschur na samhla a mheas maidir lena oiriúnacht i ndáil leis an ionchur a thugtar.

Sampla:

Sábháilteacht: Déantar athbhreithniú ar aschuir lena chinntiú nach gcuimsítear iontu treoracha díobhálacha nó teanga maslach.

Sampla:

Iomláine: Déanann sé seo measúnú ar cibé an bhfreagraíonn freagra an mhúnla ceist an úsáideora go hiomlán.

Sampla:

Líofacht: Seiceálann athbhreithneoirí an bhfuil aschur na samhla líofa agus comhleanúnach ó thaobh na teanga de.

Sampla:

Níl sna catagóirí seo ach samplaí. Tá córas meastóireachta níos casta agus aiseolas leanúnach idir na hathbhreithneoirí agus an fhoireann forbartha AI i gceist leis an bpróiseas mionchoigeartaithe iarbhír. Is é sprioc na nótaí seo ná freagraí na samhla a dhéanamh níos cabhrach, níos sábháilte agus níos ailínithe le luachanna daonna.

Is féidir le líon na n-anóitheoirí daonna (nó na n-athbhreithneoirí) a bhaineann le próiseas mionchoigeartaithe na samhlacha AI athrú go forleathan agus braitheann sé ar scála an tionscadail agus ar shainriachtanais na samhla atá i gceist.

Ní nochtann OpenAI, an eagraíocht taobh thiar de ChatGPT, go poiblí líon beacht na n-athbhreithneoirí a bhfuil baint acu leis an bpróiseas mionchoigeartaithe. Mar sin féin, i bhfianaise scála agus chastacht na hoiliúna ar mhúnla teanga chomh mór sin, tá sé sábháilte a rá gur dócha go mbeidh foireann shubstaintiúil athbhreithneoirí i gceist leis an bpróiseas.

Leanann na hathbhreithneoirí daonna seo treoirlínte arna soláthar ag OpenAI chun aschuir samhail féideartha a athbhreithniú agus a rátáil. Is próiseas leanúnach, atriallach é ina n-úsáidtear aiseolas na n-athbhreithneoirí chun an tsamhail a fheabhsú agus a bheachtú thar am. Coinníonn OpenAI lúb láidir aiseolais leis na hathbhreithneoirí, lena n-áirítear cruinnithe seachtainiúla chun aghaidh a thabhairt ar cheisteanna agus chun soiléirithe a sholáthar.

Bheadh líon na n-análaithe a theastaíonn chun 10,000 PDF a anótáil ag brath ar fhachtóirí éagsúla mar:

Castacht an Tasc: Thógfadh tascanna simplí mar íomhánna a lipéadú nó téacs a chatagóiriú níos lú ama in aghaidh an PDF, rud a cheadódh anótaire amháin chun níos mó comhad a láimhseáil. Ar an láimh eile, bheadh níos mó ama in aghaidh an doiciméid ag teastáil le haghaidh tascanna casta ar nós eastóscadh eintiteas mionsonraithe nó anailís shéimeantach, agus mar sin bheadh níos mó nótaí ag teastáil don líon céanna PDFanna.
Fad agus Castacht na PDFs: Tógfaidh PDF níos faide nó níos casta níos mó ama chun anótáil a dhéanamh ná ceann níos giorra nó níos simplí.
Riachtanais Cháilíochta: Má tá ardchruinneas ag teastáil, d’fhéadfadh go mbeadh gá le anótálaithe iolracha in aghaidh an PDF chun nótaí a chrosfhíorú.
Srianta Ama: Más gá na nótaí a chomhlánú go tapa, bheadh gá le níos mó nótaí.

Mar shampla hipitéiseach, déarfaimis gur féidir le anótaire 5 PDF a anótáil in aghaidh an lae le haghaidh tasc áirithe, agus oibríonn sé 5 lá sa tseachtain. Sa chás seo, chun 10,000 PDF a anótáil, bheadh 2000 lá, nó thart ar 8 mbliana ag teastáil ó anótaire amháin.

Mar sin féin, dá mbeadh foireann 20 nótaíora agat, d'fhéadfaidís an tasc a chríochnú i thart ar 5 mhí (ag glacadh leis go 20 lá oibre in aghaidh na míosa). Le 100 anótóir, d’fhéadfaí an tasc céanna a chur i gcrích i gceann míosa.

Cuimhnigh nach bhfuil sna huimhreacha seo ach léiriú agus bheadh luas an nóta iarbhír ag brath ar na fachtóirí a luaitear thuas. Ina theannta sin, tá oiliúint chuí anótálaithe agus rialú cáilíochta comhsheasmhach ríthábhachtach chun go n-éireoidh le haon tionscadal nótaí ar mhórscála.

Tá áthas orm gur chabhraigh an fhaisnéis leat, a Aonghuis! Tá sé mar sprioc agam freagraí cuimsitheacha cruinne a sholáthar. Má tá aon cheist níos mó agat faoi AI, foghlaim meaisín, nó aon ábhar eile, bíodh leisce ort a iarraidh!

Bígí linn don dara cuid dár n-agallamh Chat GPT

Comhroinn Shóisialta

Labhair le Saineolaí

Céad Ainm*
Sloinne*
Ríomhphost*
Fón*
Company*
Country*
Country
Comments*
Trí chlárú, aontaím le Shaip Beartas Príobháideachais agus Tearmaí Seirbhís agus mo thoiliú a thabhairt chun cumarsáid margaíochta B2B a fháil ó Shaip.
CAPTCHA

Íoslódáil Leabhar Saor in Aisce

Bealtaine tú like Chomh maith leis sin

Taobh thiar den Láithreach: Iniúchadh ar Oibríochtaí Istigh ChatGPT – Cuid 1

Bígí linn don dara cuid dár n-agallamh Chat GPT

Comhroinn Shóisialta

Labhair le Saineolaí

Conas a chuireann Tacair Sonraí Oiliúna Lasmuigh den tSeilf tús le do thionscadail ML?

Cad é Fuaime / Anótáil Cainte Le Sampla

Treoir maidir le AI Conversational i gCúram Sláinte

Seirbhísí Sonraí AI

Speisialtachta

Tionscal

Táirgí

Company

Acmhainní

Teagmháil