Tacar Sonraí NLP do ML

Tacar Sonraí NLP is Fearr chun do Mhúnlaí Foghlama Meaisín a Bhreis

Is iad tacair sonraí NLP cnámh droma go leor tionscadal próiseála teanga nádúrtha, ag tairiscint solúbthachta do raon leathan tascanna amhail aicmiú téacs, anailís mothúchán, agus freagairt ceisteanna. Mar shampla, tá breis is 681,000 post blag ó bheagnach 20,000 blagaire sa Blog Authorship Corpus, rud a fhágann gur acmhainn shaibhir é chun stíleanna scríbhneoireachta, sainaithint údar, agus níos mó a scrúdú.

Dóibh siúd ar spéis leo taighde acadúil, cuireann tacar sonraí páipéir taighde arXiv rochtain ar fáil ar bhailiúchán fairsing páipéar eolaíoch ar fud disciplíní éagsúla, ag tacú le tascanna NLP ardleibhéil amhail anailís lua agus aicmiú doiciméad. Is acmhainn luachmhar eile é tacar sonraí an Ionaid Sonraí um Sholáthar Cónaidhme, a chuireann faisnéis mhionsonraithe ar fáil faoi chonarthaí cónaidhme - rud atá oiriúnach do thionscadail a bhaineann le sonraí rialtais agus aitheantas eintiteas.

Úsáidtear na tacair sonraí NLP seo go forleathan chun samhlacha foghlama meaisín a oiliúint agus a mheas, rud a chabhraíonn le taighdeoirí agus forbróirí feidhmíocht a gcóras a fheabhsú i dtascanna NLP éagsúla. Cibé an bhfuil tú ag obair le poist bhlag, páipéir thaighde, nó sonraí rialtais, soláthraíonn na tacair sonraí seo an bunús d’fheidhmchláir NLP láidre agus ildánacha.

Cad é NLP?

Cuidíonn NLP (Próiseáil Teanga Nádúrtha) le ríomhairí teanga dhaonna a thuiscint. Tá sé cosúil le ríomhairí a mhúineadh chun téacs agus caint a léamh, a thuiscint agus freagairt a thabhairt dó mar a dhéanann daoine.

Cad is féidir le NLP a dhéanamh?

  • Déan téacs messy go sonraí eagraithe
  • A thuiscint an bhfuil tuairimí dearfacha nó diúltacha
  • Aistrigh idir teangacha
  • Cruthaigh achoimrí ar théacsanna fada
  • Agus i bhfad níos mó!
  • Tús a chur le NLP:

Chun córais NLP maith a thógáil, teastaíonn go leor samplaí uait chun iad a oiliúint - díreach mar a fhoghlaimíonn daoine níos fearr le níos mó cleachtais. Is é an dea-scéal ná go bhfuil go leor acmhainní saor in aisce ann inar féidir leat na samplaí seo a fháil: Aghaidh Hugging, Kaggle agus GitHub. Is féidir rochtain éasca a fháil ar shraitheanna sonraí ó na hardáin seo, rud a luasghéaraíonn forbairt tionscadal NLP.

Méid agus Fás an Mhargaidh NLP:

Ó 2023, bhí luach thart ar $26 billiún ar mhargadh na Próiseála Teanga Nádúrtha (NLP). Táthar ag súil go bhfásfaidh sé go suntasach, le ráta fáis bliantúil cumaisc (CAGR) de thart ar 30% ó 2023 go 2030. Tá an fás seo á thiomáint ag éileamh méadaithe ar iarratais NLP i dtionscail mar chúram sláinte, airgeadas agus seirbhís do chustaiméirí.

Conas tacar sonraí NLP maith a roghnú, smaoinigh ar na fachtóirí seo a leanas:

  • Ábharthacht: Cinntigh go bhfuil an tacar sonraí ailínithe le do thasc nó d'fhearann ​​ar leith.
  • méid: Go ginearálta feabhsaíonn tacair shonraí níos mó feidhmíocht mhúnla, ach cothromaíocht a dhéanamh ar mhéid le cáilíocht.
  • Éagsúlacht: Cuardaigh tacair shonraí le stíleanna agus comhthéacsanna éagsúla teanga chun stóinseacht na samhla a fheabhsú.
  • Cáilíocht: Seiceáil le haghaidh sonraí atá dea-lipéadaithe agus cruinn chun earráidí a sheachaint.
  • Inrochtaineacht: Cinntigh go bhfuil an tacar sonraí ar fáil le húsáid agus breithnigh aon srianta ceadúnaithe.
  • Réamhphróiseáil: Faigh amach an dteastaíonn glanadh nó réamhphróiseáil suntasach ón tacar sonraí.
  • Tacaíocht Pobail: Is minic a bhíonn níos mó acmhainní agus tacaíochta pobail ag tacair sonraí móréilimh, rud a d’fhéadfadh a bheith cabhrach.

Trí na tosca seo a mheas, is féidir leat tacar sonraí a roghnú is fearr a oireann do riachtanais do thionscadail. Tá sé ríthábhachtach na tacair sonraí cearta a roghnú chun na torthaí is fearr a bhaint amach i dtionscadail NLP, toisc go mbíonn tionchar díreach acu ar fheidhmíocht mhúnla agus ar éifeachtúlacht oiliúna.

Na 33 Thacar Sonraí Oscailte is Fearr nach mór a fheiceáil le haghaidh NLP

Go ginearálta

  • Spambase UCI (Nasc)

    Tá bailiúchán ríomhphoist spam ag na húsáideoirí ag Spambase, a cruthaíodh ag na Hewlett-Packard Labs, agus é mar aidhm scagaire turscair pearsantaithe a fhorbairt. Tá níos mó ná 4600 breathnóireacht aige ó theachtaireachtaí ríomhphoist, agus is spam iad gar do 1820 díobh.

  • Tacar sonraí Enron (Nasc)

    Tá bailiúchán ollmhór ríomhphoist 'fíor' gan ainm sa tacar sonraí Enron atá ar fáil don phobal chun a samhlacha foghlama meaisín a oiliúint. Tá níos mó ná leathmhilliún ríomhphost ann ó bhreis is 150 úsáideoir, bainistíocht shinsearach Enron den chuid is mó. Tá an tacar sonraí seo ar fáil lena úsáid i bhformáidí struchtúrtha agus neamhstruchtúrtha araon. Chun na sonraí neamhstruchtúrtha a fheabhsú, ní mór duit teicnící próiseála sonraí a chur i bhfeidhm.

  • Tacar sonraí Córais Mholta (Nasc)

    Is bailiúchán ollmhór tacar sonraí éagsúla é tacar sonraí an Chórais Mholta ina bhfuil gnéithe éagsúla mar,

    • Athbhreithnithe táirge
    • Rátálacha réalta
    • Rianú aclaíochta
    • Sonraí amhrán
    • Líonraí sóisialta
    • Stampaí ama
    • Idirghníomhaíochtaí úsáideora / míre
    • Sonraí GPS
  • Bruach na gCrann Penn (Nasc)

    Tá an-tóir ar an gcorpas seo, ón Wall Street Journal, chun samhlacha lipéadaithe seichimh a thástáil.

  • NLTK (Nasc)

    Cuireann an leabharlann Python seo rochtain ar fáil ar bhreis is 100 corpus agus acmhainn léacsach le haghaidh NLP. Cuimsíonn sé freisin an leabhar NLTK, cúrsa oiliúna maidir le húsáid na leabharlainne. Cuimsíonn NLTK rochtain ar WordNet, bunachar sonraí mór léacsach Béarla, áit a ngrúpáiltear focail ar nós ainmfhocail, briathra, aidiachtaí agus dobhriathra i gcomhchiallaigh bunaithe ar bhríonna comhroinnte. Soláthraíonn NLTK liosta anótáilte de chorpais agus acmhainní léacsacha le haghaidh taighde NLP freisin.

  • Spleáchais Uilíoch (Nasc)

    Soláthraíonn UD bealach comhsheasmhach chun an ghramadach a anótáil, le hacmhainní i mbreis is 100 teanga, 200 crann, agus tacaíocht ó bhreis is 300 ball pobail.

Tacair Sonraí Anailíse Meon

  • Foclóirí le haghaidh Scannán agus Airgeadas (Nasc)

    Anailís ar Thuairimí
    Soláthraíonn tacar sonraí Foclóirí do Scannáin agus Airgeadas foclóirí fearann-shonracha le haghaidh polaraíocht dearfach nó diúltach i líonadh Airgeadais agus athbhreithnithe scannáin. Tarraingítear na foclóirí seo ó líonadh IMDb agus US Form-8.

  • Seol 140 (Nasc)

    Tá níos mó ná 140 tweets ag Sentiment 160,000 le straoiseoga éagsúla atá catagóirithe i 6 réimse éagsúla: dáta tweet, polaraíocht, téacs, ainm úsáideora, ID, agus ceist. Cuireann an tacar sonraí seo ar do chumas meon branda, táirge, nó fiú topaic atá bunaithe ar ghníomhaíocht Twitter a fháil amach. Ós rud é go gcruthaítear an tacar sonraí seo go huathoibríoch, murab ionann agus tweets eile a bhfuil nótaí daonna orthu, déanann sé tweets le mothúcháin dearfacha agus mothúcháin dhiúltacha a aicmiú mar neamhfhabhrach.

  • Tacar sonraí Seolta Il-Fearainn (Nasc)

    Is stór é an tacar sonraí meon il-fearainn seo d’athbhreithnithe Amazon ar tháirgí éagsúla. Tá athbhreithnithe ag roinnt catagóirí táirgí, mar shampla leabhair, agus níl ach cúpla céad léirmheas ag cuid eile. Thairis sin, is féidir na hathbhreithnithe le rátálacha réalta a thiontú ina lipéid dhénártha.

  • Banc na gCrann Meonachán Standford (Nasc)

    Áiríonn an tacar sonraí NLP seo ó Rotten Tomatoes frásaí níos faide agus samplaí téacs níos mionsonraithe.

  • An Blog Authorship Corpus (Nasc)

    Tá blagphoist le beagnach 1.4 milliún focal sa bhailiúchán seo, is tacar sonraí ar leith é gach blag.

  • Tacar Sonraí OpinRank (Nasc)

    300,000 léirmheas ó Edmunds agus TripAdvisor, arna n-eagrú de réir mhúnla gluaisteán nó ceann scríbe taistil agus óstán.

Tacar Sonraí Téacs

  • Corpas Wiki QA (Nasc)

    Cruthaithe chun cuidiú le taighde ceisteanna agus freagraí fearainn oscailte, tá an WiKi QA Corpus ar cheann de na tacair sonraí is fairsinge atá ar fáil go poiblí. Tiomsaíodh é ó logaí fiosrúcháin inneall cuardaigh Bing, tagann sé le péirí ceisteanna agus freagraí. Tá níos mó ná 3000 ceist agus 1500 abairt freagartha lipéadaithe air.

  • Tacar Sonraí Tuarascálacha Cás Dlí (Nasc)

    Tá bailiúchán de 4000 cás dlí ag tacar sonraí Tuarascálacha Cásanna Dlíthiúla agus is féidir iad a úsáid chun oiliúint a dhéanamh le haghaidh achoimre uathoibríoch téacs agus anailís lua. Úsáidtear gach doiciméad, catchphrases, ranganna lua, catchphrases lua, agus go leor eile.

  • Chontúirt (Nasc)

    Is éard atá i tacar sonraí Jeopardy ná bailiúchán de níos mó ná 200,000 ceist atá le feiceáil sa seó teilifíse tráth na gceist a thug úsáideoir Reddit le chéile. Déantar gach pointe sonraí a aicmiú de réir a dháta craolta, uimhir eipeasóid, luach, babhta, agus ceist / freagra.

  • 20 Grúpa Nuachta (Nasc)

    Cuimsíonn bailiúchán de 20,000 doiciméad 20 grúpa nuachta agus ábhar, a shonraíonn topaicí ó reiligiún go spóirt mhóréilimh.

  • Tacar Sonraí Nuachta Reuters (Nasc)

    Le feiceáil den chéad uair i 1987, tá an tacar sonraí seo lipéadaithe, innéacsaithe agus tiomsaithe chun críocha meaisínfhoghlama.

  • ArXiv (Nasc)

    Áiríonn an tacar sonraí substaintiúil 270 GB seo téacs iomlán gach páipéar taighde arXiv.

  • Imeachtaí Pharlaimint na hEorpa Corpas Comhthreomhar (Nasc)

    I measc na bpéirí abairtí ó imeachtaí na Parlaiminte tá iontrálacha ó 21 teanga Eorpach, ina bhfuil roinnt teangacha nach bhfuil chomh coitianta le haghaidh corpora meaisínfhoghlama.

  • Tagarmharc Billiún Focal (Nasc)

    Díorthaithe ó News Crawl WMT 2011, cuimsíonn an tacar sonraí samhaltaithe teanga seo beagnach billiún focal chun teicníochtaí samhaltaithe teanga nuálacha a thástáil.

Tacair Sonraí Urlabhra Fuaime

  • Corpas Wikipedia Labhartha (Nasc)

    Óráid Fuaime Tá an tacar sonraí seo foirfe do gach duine atá ag iarraidh dul níos faide ná an Béarla. Tá bailiúchán alt sa tacar sonraí seo a labhraítear in Ollainnis agus i nGearmáinis agus i mBéarla. Tá réimse éagsúil ábhar agus tacar cainteoirí ann a théann isteach sna céadta uair an chloig.

  • 2000 HUB5 Béarla (Nasc)

    Tá 2000 trascríbhinn comhrá teileafóin i mBéarla i tacar sonraí Béarla HUB5 40. Soláthraíonn an Institiúid Náisiúnta Caighdeán agus Teicneolaíochta na sonraí, agus tá a phríomhfhócas ar chaint chomhrá a aithint agus urlabhra a thiontú go téacs.

  • LibiSpeech (Nasc)

    Is éard atá i tacar sonraí LibriSpeech bailiúchán de bheagnach 1000 uair an chloig de chaint Bhéarla a tógadh agus a dheighilt i gceart ag ábhair i gcaibidlí ó chlosleabhair, rud a fhágann gur uirlis iontach í do Phróiseáil Teanga Nádúrtha.

  • Tacaíocht dhigiteach cainte saor in aisce, (Nasc)

    Áirítear sa tacar sonraí NLP seo níos mó ná 1,500 taifead d’uimhreacha labhartha i mBéarla.

  • Tacar Sonraí Urlabhra M-AI Labs (Nasc)

    Tairgeann an tacar sonraí beagnach 1,000 uair an chloig d’fhuaim le tras-scríbhinní, a chuimsíonn teangacha iolracha agus a chatagóiriú de réir guthanna fireanna, baineanna agus measctha.

  • Bunachar Sonraí Cainte Noisy (nasc)

    Tá taifeadtaí cainte glana agus torannacha comhthreomhara sa tacar sonraí seo, atá beartaithe le haghaidh bogearraí feabhsaithe cainte a fhorbairt ach atá tairbheach freisin le haghaidh oiliúna cainte i ndálaí dúshlánacha.

Tacair Sonraí Léirmheasanna

  • Léirmheasanna Yelp (Nasc)

    Tá bailiúchán mór de thart ar 8.5 milliún athbhreithniú ar tacar sonraí Yelp ar 160,000 móide gnóthas, a n-athbhreithnithe agus sonraí úsáideora. Is féidir na hathbhreithnithe a úsáid chun do mhúnlaí a oiliúint ar anailís meon. Ina theannta sin, tá níos mó ná 200,000 pictiúr sa tacar sonraí seo a chlúdaíonn ocht n-ionad cathrach.

  • Léirmheasanna IMDB (Nasc)

    Tá athbhreithnithe IMDB i measc na tacar sonraí is mó éilimh ina bhfuil faisnéis theilgthe, rátálacha, tuairisc, agus seánra do níos mó ná 50 míle scannán. Is féidir an tacar sonraí seo a úsáid chun do mhúnlaí foghlama meaisín a thástáil agus a oiliúint.

  • Tacar Sonraí Athbhreithnithe agus Rátálacha Amazon (Nasc)

    Tá bailiúchán luachmhar meiteashonraí agus athbhreithnithe ar tháirgí éagsúla ó Amazon a bailíodh ó 1996 go 2014 i tacar sonraí athbhreithnithe agus rátála Amazon - thart ar 142.8 milliún taifead. Cuimsíonn na meiteashonraí an praghas, tuairisc an táirge, branda, catagóir agus go leor eile, cé go bhfuil cáilíocht an téacs, úsáideacht an téacs, rátálacha agus go leor eile sna hathbhreithnithe.

Tacair Sonraí Ceisteanna agus Freagraí

  • Tacar Sonraí Ceisteanna agus Freagraí Stanford (SQuAD) (Nasc)

    Tá 100,000 ceist freagartha sa tacar sonraí léamhthuisceana seo agus 50,000 ceist nach féidir a fhreagairt, gach ceann cruthaithe ag slua-oibrithe Vicipéid.

  • Ceisteanna Nádúrtha (Nasc)

    Tá os cionn 300,000 sampla oiliúna, 7,800 sampla forbartha, agus 7,800 sampla tástála ag an tacar oiliúna seo, agus tá ceist Google agus leathanach Vicipéide ag gach ceann acu.

  • TriviaQA (Nasc)

    Tá 950,000 péire QA sa tacar ceisteanna dúshlánach seo, lena n-áirítear fo-thacair atá deimhnithe ag an duine agus arna nginiúint ag meaisín.

  • CLEVR (Teanga Comhdhéanta agus Bunús Amhairc) (Nasc)

    Tá réada rindreáilte 3D agus na mílte ceisteanna le sonraí faoin radharc amhairc sa tacar sonraí freagartha ceiste seo.

Mar sin, cén tacar sonraí a roghnaigh tú chun do mhúnla foghlama meaisín a oiliúint?

De réir mar a théann muid, fágfaimid a pro-tip.

Déan cinnte dul tríd an gcomhad README go críochnúil sula roghnaíonn tú tacar sonraí NLP do do chuid riachtanas. Beidh an fhaisnéis uile a theastaíonn uait, mar ábhar an tacar sonraí, na paraiméadair éagsúla ar a ndearnadh na sonraí a chatagóiriú, agus na cásanna úsáide dóchúla den tacar sonraí, sa tacar sonraí.

Beag beann ar na samhlacha a thógann tú, tá ionchas spreagúil ann ár n-innill a chomhtháthú níos dlúithe agus níos intinne lenár saol. Le NLP, méadaítear iomadúil ar na féidearthachtaí maidir le gnó, scannáin, aithint cainte, airgeadas agus eile.

Comhroinn Shóisialta

Cruth
Forbhreathnú Príobháideachta

Úsáideann an láithreán gréasáin seo fianáin ionas gur féidir linn an taithí is fearr úsáideora a sholáthar duit. Stóráiltear faisnéis ar bhrabhsálaí i do bhrabhsálaí agus déanann sé feidhmeanna ar nós a aithint duit nuair a thagann tú ar ais chuig ár láithreán gréasáin agus cabhrú lenár bhfoireann a thuiscint cé na codanna den láithreán gréasáin is fearr leat agus is úsáideach leat.