Gach uair a chloisimid focal nó a léifimid téacs, tá an cumas nádúrtha againn an focal a aithint agus a chatagóiriú i ndaoine, áit, suíomh, luachanna, agus go leor eile. Is féidir le daoine focal a aithint go tapa, é a chatagóiriú agus an comhthéacs a thuiscint. Mar shampla, nuair a chloiseann tú an focal ‘Steve Jobs,’ is féidir leat smaoineamh láithreach ar thrí nó ceithre thréith ar a laghad agus an t-eintiteas a dheighilt ina chatagóirí,
- Duine: Steve Jobs
- Cuideachta: Apple
- suíomh: California
Toisc nach bhfuil an cumas nádúrtha seo ag ríomhairí, teastaíonn ár gcabhair uathu chun focail nó téacs a aithint agus a rangú. Is é an áit Aitheantas Aonáin Ainmnithe (NER) tagann sé i bhfeidhm.
Faighimid tuiscint ghairid ar NER agus ar a ghaol le NLP.
Cad is Aitheantas Aonán Ainmnithe ann?
Is cuid de Phróiseáil Teanga Nádúrtha é Aitheantas Aonán Ainmnithe. Príomhaidhm na NER Is é a phróiseáil sonraí struchtúrtha agus neamhstruchtúrtha agus na heintitis ainmnithe seo a rangú i gcatagóirí réamhshainithe. I measc na gcatagóirí coitianta tá ainm, suíomh, cuideachta, am, luachanna airgeadaíochta, imeachtaí agus go leor eile.
Go hachomair, déileálann NER le:
- Aonán ainmnithe a aithint/a bhrath – Focal nó sraith focal i ndoiciméad a aithint.
- Aicmiú eintitis ainmnithe – Gach aonán braite a rangú i gcatagóirí réamhshainithe.
Ach conas a bhaineann NER le NLP?
Cuidíonn próiseáil Teanga Nádúrtha le meaisíní cliste a fhorbairt atá in ann brí a bhaint as urlabhra agus téacs. Cuidíonn Foghlaim Meaisín leis na córais éirimiúla seo leanúint ar aghaidh ag foghlaim trí oiliúint a chur ar líon mór teanga nádúrtha tacair sonraí.
Go ginearálta, tá trí phríomhchatagóir ag NLP:
- Struchtúr agus rialacha na teanga a thuiscint - Comhréire
- Ag fáil brí focal, téacs, agus cainte agus a ngaolmhaireachtaí a aithint - Semantics
- Focail labhartha a aithint agus a aithint agus iad a athrú ina théacs – Óráid
Cuidíonn NER sa chuid shéimeantach de NLP, le brí na bhfocal a bhaint amach, iad a aithint agus a aimsiú bunaithe ar a gcaidrimh.
Samplaí Coiteann de NER
Tá cuid de na samplaí coitianta de réamhshocraithe catagóiriú eintiteas Is iad sin:
Duine: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon
suíomh: Ceanada, Honolulu, Bancác, an Bhrasaíl, Cambridge
Eagraíocht: Samsung, Disney, Ollscoil Yale, Google
Am: 15.35, 12 i.n.,
I measc na gcatagóirí eile tá luachanna Uimhreacha, Slonn, Seoltaí R-phoist, agus Áis.
Athbhrí in Aitheantas Aonán Ainmnithe
Tá an chatagóir lena mbaineann téarma soiléir go hintuigthe don duine. Mar sin féin, ní mar sin atá an scéal maidir le ríomhairí – bíonn fadhbanna aicmithe acu. Mar shampla:
Cathair Mhanchain (Eagraíocht) bhuaigh siad an Premier League Trophy ach san abairt seo a leanas úsáidtear an eagraíocht ar bhealach difriúil. Cathair Mhanchain (An Cheantar) a bhí ina Chumhacht Teicstíle agus tionsclaíochta.
Riachtanais do mhúnla NER sonraí oiliúna a sheoladh cruinn eastóscadh eintiteas agus aicmiú. Má tá do mhúnla á oiliúint agat ar Bhéarla Shakespeare, ní gá a rá, ní bheidh sé in ann Instagram a thuiscint.
Cur Chuige NER Éagsúla
An príomhsprioc a Múnla NER is é sin eintitis a lipéadú i ndoiciméid téacs agus iad a chatagóiriú. Go ginearálta úsáidtear na trí chur chuige seo a leanas chun na críche seo. Mar sin féin, is féidir leat modh amháin nó níos mó a chur le chéile freisin.
Is iad na cineálacha cur chuige éagsúla chun córais NER a chruthú ná:
Córais foclóir-bhunaithe
B’fhéidir gurb é an córas foclóir-bhunaithe an cur chuige NER is simplí agus is bunúsaí. Bainfidh sé úsáid as foclóir le go leor focal, comhchiallaigh, agus bailiúchán stór focal. Seiceálfaidh an córas an bhfuil aonán ar leith atá i láthair sa téacs ar fáil sa stór focal freisin. Trí úsáid a bhaint as algartam meaitseála teaghrán, déantar cros-seiceáil ar eintitis.
Míbhuntáiste amháin a bhaineann leis an gcur chuige seo a úsáid is ea go bhfuil gá le huasghrádú leanúnach a dhéanamh ar an tacar sonraí stór focal le go bhfeidhmeoidh múnla NER go héifeachtach.
Córais bunaithe ar rialacha
Sa chur chuige seo, baintear faisnéis bunaithe ar thacar de rialacha réamhshocraithe. Úsáidtear dhá phríomhthacar rialacha,
Rialacha patrún-bhunaithe - Mar a thugann an t-ainm le tuiscint, leanann riail patrún-bhunaithe patrún moirfeolaíoch nó teaghrán focal a úsáidtear sa doiciméad.
Rialacha bunaithe ar chomhthéacs - Braitheann rialacha comhthéacs-bhunaithe ar bhrí nó ar chomhthéacs an fhocail sa doiciméad.
Córais meaisín-bhunaithe
I gcórais atá bunaithe ar mheaisín-fhoghlaim, úsáidtear samhaltú staitistiúil chun eintitis a bhrath. Úsáidtear léiriú gné-bhunaithe den doiciméad téacs sa chur chuige seo. Is féidir leat roinnt míbhuntáistí a bhaineann leis an gcéad dá chur chuige a shárú mar is féidir leis an tsamhail a aithint cineálacha eintiteas ainneoin éagsúlachtaí beaga ina litriú.
Úsáid Cásanna agus Samplaí d'Aitheantas Aonán Ainmnithe?
Ilghnéitheacht Aitheantas Aonáin Ainmnithe (NER) a nochtadh:
- chatbots: Cuidíonn NER le botaí comhrá cosúil le ChatGPT OpenAI chun fiosrúcháin úsáideoirí a thuiscint trí phríomheintitis a aithint.
- Tacaíocht do Chustaiméirí: Eagraíonn sé aiseolas ó chustaiméirí de réir ainmneacha táirgí, ag luasghéarú amanna freagartha.
- Airgeadais: Baineann NER sonraí ríthábhachtacha as tuarascálacha airgeadais, ag cuidiú le hanailís treochtaí agus measúnú riosca.
- Cúram sláinte: Tarraingíonn sé faisnéis riachtanach ó thaifid chliniciúla, ag cur anailís sonraí níos tapúla chun cinn.
- AD: Déanann sé an earcaíocht a chuíchóiriú trí phróifílí iarratasóirí a achoimriú agus aiseolas ó fhostaithe a threorú.
- Soláthraithe Nuachta: Déanann NER ábhar a chatagóiriú mar fhaisnéis agus treochtaí ábhartha, rud a chuireann dlús le tuairisciú.
- Innill Mholta: Fostaíonn cuideachtaí ar nós Netflix NER chun moltaí a phearsantú bunaithe ar iompar úsáideoirí.
- Innill Chuardaigh: Trí ábhar gréasáin a chatagóiriú, cuireann NER le cruinneas torthaí cuardaigh.
- Anailís Seolta: Baineann NER tagairtí branda ó léirmheasanna, rud a spreagann uirlisí anailíse meon.
Feidhmchláir NER
Tá roinnt cásanna úsáide ag NER i go leor réimsí a bhaineann le Próiseáil Teanga Nádúrtha agus cruthú tacair shonraí oiliúna le haghaidh foghlaim meaisín agus foghlaim domhain réitigh. Seo cuid d’fheidhmchláir NER:
Tacaíocht Shimplithe do Chustaiméirí
Is féidir le córas NER gearáin ábhartha ó chustaiméirí, fiosrúcháin agus aiseolas a fheiceáil go héasca bunaithe ar fhaisnéis ríthábhachtach mar ainmneacha táirgí, sonraíochtaí, láithreacha brainse, agus go leor eile. Déantar an gearán nó an t-aiseolas a rangú go cuí agus a atreoraítear chuig an roinn cheart trí eochairfhocail tosaíochta a scagadh.
Acmhainní Daonna Éifeachtúla
Cuidíonn NER le foirne Acmhainní Daonna a bpróiseas fruilithe a fheabhsú agus na hamlínte a laghdú trí achoimre tapa a thabhairt ar atosú na n-iarratasóirí. Is féidir leis na huirlisí NER an t-atosú a scanadh agus faisnéis ábhartha a bhaint - ainm, aois, seoladh, cáilíocht, coláiste, agus mar sin de.
Ina theannta sin, is féidir leis an Roinn Acmhainní Daonna uirlisí NER a úsáid freisin chun na sreafaí oibre inmheánacha a chuíchóiriú trí ghearáin ó fhostaithe a scagadh agus iad a chur ar aghaidh chuig na cinn ranna lena mbaineann.
Aicmiú Inneachair Simplithe
Is tasc an-ghreannmhar do sholáthraithe nuachta é rangú ábhair. Má dhéantar an t-ábhar a rangú i gcatagóirí éagsúla is fusa é a fháil amach, léargais a fháil, treochtaí a aithint agus na hábhair a thuiscint. A Ainmnithe Aitheantas Aonáin is féidir an uirlis a bheith áisiúil do sholáthraithe nuachta. Is féidir leis go leor alt a scanadh, eochairfhocail tosaíochta a aithint, agus faisnéis a bhaint as bunaithe ar na daoine, an eagraíocht, an suíomh agus go leor eile.
Innill Chuardaigh a bharrfheabhsú
NER cabhraíonn sé le luas agus ábharthacht torthaí cuardaigh a shimpliú agus a fheabhsú. In ionad an cheist chuardaigh do na mílte alt a rith, is féidir le samhail NER an cheist a rith uair amháin agus na torthaí a shábháil. Mar sin, bunaithe ar na clibeanna sa cheist chuardaigh, is féidir na hailt a bhaineann leis an gceist a phiocadh suas go tapa.
Moladh Ábhar Cruinn
Braitheann roinnt feidhmchlár nua-aimseartha ar uirlisí NER chun eispéireas custaiméara optamaithe agus saincheaptha a sholáthar. Mar shampla, soláthraíonn Netflix moltaí pearsantaithe bunaithe ar stair chuardaigh agus radhairc an úsáideora ag baint úsáide as aitheantas aonáin ainmnithe.
Déanann Aitheantas Aonán Ainmnithe do foghlaim meaisín samhlacha níos éifeachtaí agus níos iontaofa. Mar sin féin, teastaíonn tacair shonraí oiliúna ardchaighdeáin uait chun go n-oibreoidh do mhúnlaí ag an leibhéal is fearr agus go mbainfidh tú na spriocanna atá beartaithe leo. Níl uait ach comhpháirtí seirbhíse le taithí atá in ann tacair shonraí ardchaighdeáin a sholáthar duit réidh le húsáid. Más é sin an cás, is é Shaip an geall is fearr duit fós. Déan teagmháil linn le haghaidh tacair shonraí cuimsitheacha NER chun cabhrú leat réitigh ML éifeachtúla agus ardleibhéil a fhorbairt do do mhúnlaí AI.
[Léigh freisin: Cás-Staidéar: Aitheantas Aonán Ainmnithe (NER) don NLP Cliniciúil]
Conas a Oibríonn Aitheantas Aonáin Ainmnithe?
Nuair a théitear isteach i réimse Aitheantas Aonán Ainmnithe (NER) nochtfar turas córasach a chuimsíonn roinnt céimeanna:
Comhaontú
Ar dtús, déantar na sonraí téacsacha a roinnt ina n-aonaid níos lú, ar a dtugtar comharthaí, ar féidir leo raon ó fhocail go habairtí. Mar shampla, tá an ráiteas “Ba é Barack Obama Uachtarán SAM” roinnte ina chomharthaí mar “Barack”, “Obama”, “Bhí”, “an”, “uachtarán”, “de”, “the”, agus “ Stáit Aontaithe Mheiriceá”.
Brath Aonáin
Agus úsáid á baint as meascán de threoirlínte teangeolaíochta agus modheolaíochtaí staitistiúla, tugtar aird ar eintitis ainmnithe ionchasacha. Tá sé ríthábhachtach ag an gcéim seo patrúin ar nós caipitlithe in ainmneacha (“Barack Obama”) nó formáidí ar leith (cosúil le dátaí) a aithint.
Aicmiú Aonáin
Tar éis iad a bhrath, déantar eintitis a shórtáil i gcatagóirí réamhshainithe mar “Duine”, “Eagraíocht”, nó “Suíomh”. Is minic a spreagann samhlacha meaisínfhoghlama, a chothaítear ar thacair sonraí lipéadaithe, an t-aicmiú seo. Anseo, tá “Barack Obama” clibáilte mar “Duine” agus “SAM” mar “Suíomh”.
Meastóireacht Chomhthéacsúil
Is minic a mhéadaítear cumas na gcóras NER trí mheasúnú a dhéanamh ar an gcomhthéacs máguaird. Mar shampla, san abairt “Chonaic Washington imeacht stairiúil”, cabhraíonn an comhthéacs le “Washington” a aithint mar shuíomh seachas mar ainm duine.
Athmheasúnú Iar-mheastóireachta
Tar éis an tsainaitheanta agus an aicmithe tosaigh, d’fhéadfadh mionchoigeartú iarmheastóireachta teacht ar na torthaí. D’fhéadfadh an chéim seo dul i ngleic le débhríochtaí, aonáin ilchomharthaí a chomhleá, nó úsáid a bhaint as bunachair eolais chun cur leis na sonraí eintitis.
Ní hamháin go ndéanann an cur chuige sainithe seo croí an NER a dhíscriosadh ach déanann sé an t-ábhar d’innill chuardaigh a bharrfheabhsú, ag cur le hinfheictheacht an phróisis chasta a chuimsíonn NER.
Buntáistí & Dúshláin NER?
Sochair:
- Eastóscadh Faisnéise: Aithníonn NER príomhshonraí, a chuidíonn le haisghabháil faisnéise.
- Eagraíocht Ábhar: Cuidíonn sé le hábhar a chatagóiriú, úsáideach le haghaidh bunachair shonraí agus innill chuardaigh.
- Eispéireas Feabhsaithe Úsáideora: Déanann NER torthaí cuardaigh a bheachtú agus déanann sé moltaí a phearsantú.
- Anailís léargasach: Éascaíonn sé anailís sentiment agus braite treochtaí.
- Sreabhadh Oibre Uathoibrithe: Cuireann NER uathoibriú chun cinn, rud a shábháil am agus acmhainní.
Teorainneacha/Dúshláin:
- Rún Athbhrí: Déantar streachailt le haonáin chosúla a idirdhealú.
- Oiriúnú Fearainn-Sainiúil: Dian acmhainní thar réimsí éagsúla.
- Spleáchas Teanga: Athraíonn éifeachtúlacht de réir teangacha.
- Ganntanas Sonraí Lipéadaithe: Tá tacair shonraí móra lipéadaithe de dhíth le haghaidh oiliúna.
- Láimhseáil Sonraí Neamhstruchtúrtha: Teastaíonn teicnící chun cinn.
- Tomhas Feidhmíochta: Tá meastóireacht chruinn casta.
- Próiseáil Fíor-ama: Tá sé dúshlánach luas a chothromú le cruinneas.