Is príomhghné de phróiseáil teanga nádúrtha (NLP) é aitheantas aonáin ainmnithe (NER) a chabhraíonn le sonraí sonracha a aithint agus a chatagóiriú laistigh de líon mór téacs. I measc na n-iarratas NER tá eastóscadh faisnéise, achoimre téacs, agus anailís meon, i measc nithe eile. Le haghaidh NER éifeachtach, tá gá le tacair shonraí éagsúla chun samhlacha meaisínfhoghlama a oiliúint.
Is iad seo a leanas cúig thacar sonraí foinse oscailte suntasacha do NER:
- CONLL 2003: Fearann nuachta
- CADEC: Fearann míochaine
- VicíNÉuRal: fearann Vicipéid
- Nótaí 5: Fearainn éagsúla
- BBN: Fearainn éagsúla
I measc na mbuntáistí a bhaineann leis na tacair shonraí seo tá:
- Inrochtaineacht: Tá siad saor in aisce agus spreagann siad comhoibriú
- Saibhreas Sonraí: Tá sonraí éagsúla iontu, rud a fheabhsaíonn feidhmíocht na samhla
- Tacaíocht Pobail: Is minic a thagann siad le pobal úsáideoirí tacúil
- Éascaigh Taighde: Úsáideach go háirithe do thaighdeoirí a bhfuil acmhainní teoranta bailithe sonraí acu
Mar sin féin, tagann siad le míbhuntáistí freisin:
- Cáilíocht Sonraí: Féadfaidh earráidí nó laofachtaí a bheith iontu
- Easpa Sainiúlachta: D’fhéadfadh sé nach mbeadh siad oiriúnach do thascanna a éilíonn sonraí sonracha
- Buarthaí Slándála agus Príobháideachta: Rioscaí a bhaineann le faisnéis íogair
- cothabháil: Seans nach bhfaighidh siad nuashonruithe rialta
In ainneoin na míbhuntáistí a d’fhéadfadh a bheith ann, tá ról ríthábhachtach ag tacair shonraí foinse oscailte i gcur chun cinn NLP agus meaisínfhoghlama, go háirithe i réimse an aitheantais aonáin ainmnithe.
Léigh an t-alt iomlán anseo:
https://wikicatch.com/open-datasets-for-named-entity-recognition/