Tacar Sonraí NLP do ML

15 tacar sonraí NLP is fearr chun Múnlaí Próiseála Teanga Nádúrtha a oiliúint duit

Is cuid ríthábhachtach í an phróiseáil teanga nádúrtha san armúr foghlama meaisín. Mar sin féin, teastaíonn méideanna ollmhóra sonraí agus oiliúna uaidh chun go n-oibreoidh an tsamhail go maith. Ceann de na saincheisteanna suntasacha le NLP is ea an easpa tacar sonraí oiliúna ar féidir leo réimsí móra spéise laistigh den fhearann ​​a chlúdach.

Má tá tú ag tosú amach sa réimse ollmhór seo, seans go mbeidh sé dúshlánach agus beagnach iomarcach duit do thacair sonraí a chruthú. Go háirithe nuair a bhíonn cáilíocht ann NLP tacair sonraí atá ar fáil chun do mhúnlaí meaisínfhoghlama a oiliúint bunaithe ar a gcuspóir.

Sclábhaítear margadh an NLP ag CAGR de 11.7% i rith 2018 agus 2026 le sroicheadh $ 28.6 Billiún faoi 2026. A bhuíochas leis an éileamh méadaitheach ar NLP agus ar fhoghlaim meaisín, is féidir anois do chuid tacar sonraí ardchaighdeáin a sholáthar chun freastal ar anailís sentiment, athbhreithnithe, anailís ceisteanna agus freagraí, agus tacar sonraí anailíse cainte.

Na Datasets NLP um Fhoghlaim Meaisín Is Féidir Leat Iontaobhas a Dhéanamh

Ós rud é go bhfuil tacar sonraí gan áireamh - ag díriú ar riachtanais éagsúla - á scaoileadh beagnach gach lá, is féidir go mbeadh sé dúshlánach rochtain a fháil ar thacair sonraí ardchaighdeáin, iontaofa agus is fearr. Anseo, rinneamar an obair níos éasca duit, mar thugamar tacar sonraí coimeádaithe duit atá deighilte bunaithe ar na catagóirí a bhfreastalaíonn siad orthu.

Go ginearálta

Tá bailiúchán ríomhphoist spam ag na húsáideoirí ag Spambase, a cruthaíodh ag na Hewlett-Packard Labs, agus é mar aidhm scagaire turscair pearsantaithe a fhorbairt. Tá níos mó ná 4600 breathnóireacht aige ó theachtaireachtaí ríomhphoist, agus is spam iad gar do 1820 díobh.

Tá bailiúchán mór ríomhphoist ‘fíor’ gan ainm gan ainm ag tacar sonraí Enron atá ar fáil don phobal chun a gcuid samhlacha foghlama meaisín a oiliúint. Bródúil as níos mó ná leath mhilliún ríomhphost ó níos mó ná 150 úsáideoir, bainistíocht shinsearach Enron den chuid is mó. Tá an tacar sonraí seo ar fáil le húsáid i bhformáidí struchtúrtha agus neamhstruchtúrtha. Chun na sonraí neamhstruchtúrtha a sprúis, caithfidh tú teicnící próiseála sonraí a chur i bhfeidhm.

  • Tacar sonraí Córais Mholta (Nasc)

Is bailiúchán ollmhór tacar sonraí éagsúla é tacar sonraí an Chórais Mholta ina bhfuil gnéithe éagsúla mar,

  • Athbhreithnithe táirge
  • Rátálacha réalta
  • Rianú aclaíochta
  • Sonraí amhrán
  • Líonraí sóisialta
  • Stampaí ama
  • Idirghníomhaíochtaí úsáideora / míre
  • Sonraí GPS

Anailís ar Thuairimí

  • Foclóirí le haghaidh Scannán agus Airgeadas (Nasc)

Anailís ar Thuairimí
Soláthraíonn tacar sonraí Foclóirí do Scannáin agus Airgeadas foclóirí fearann-shonracha le haghaidh polaraíocht dearfach nó diúltach i líonadh Airgeadais agus athbhreithnithe scannáin. Tarraingítear na foclóirí seo ó líonadh IMDb agus US Form-8.

Tá níos mó ná 140 tweets ag Sentiment 160,000 le straoiseoga éagsúla atá catagóirithe i 6 réimse éagsúla: dáta tweet, polaraíocht, téacs, ainm úsáideora, ID, agus ceist. Cuireann an tacar sonraí seo ar do chumas meon branda, táirge, nó fiú topaic atá bunaithe ar ghníomhaíocht Twitter a fháil amach. Ós rud é go gcruthaítear an tacar sonraí seo go huathoibríoch, murab ionann agus tweets eile a bhfuil nótaí daonna orthu, déanann sé tweets le mothúcháin dearfacha agus mothúcháin dhiúltacha a aicmiú mar neamhfhabhrach.

  • Tacar sonraí Seolta Il-Fearainn (Nasc)

Is stór é an tacar sonraí meon il-fearainn seo d’athbhreithnithe Amazon ar tháirgí éagsúla. Tá athbhreithnithe ag roinnt catagóirí táirgí, mar shampla leabhair, agus níl ach cúpla céad léirmheas ag cuid eile. Thairis sin, is féidir na hathbhreithnithe le rátálacha réalta a thiontú ina lipéid dhénártha.

Déanaimis plé ar do riachtanas Sonraí Oiliúna AI inniu.

Téacs

Cruthaithe chun cuidiú le taighde ceisteanna agus freagraí fearainn oscailte, tá an WiKi QA Corpus ar cheann de na tacair sonraí is fairsinge atá ar fáil go poiblí. Tiomsaíodh é ó logaí fiosrúcháin inneall cuardaigh Bing, tagann sé le péirí ceisteanna agus freagraí. Tá níos mó ná 3000 ceist agus 1500 abairt freagartha lipéadaithe air.

  • Tacar Sonraí Tuarascálacha Cás Dlí (Nasc)

Tá bailiúchán de 4000 cás dlí ag tacar sonraí Tuarascálacha Cásanna Dlíthiúla agus is féidir iad a úsáid chun oiliúint a dhéanamh le haghaidh achoimre uathoibríoch téacs agus anailís lua. Úsáidtear gach doiciméad, catchphrases, ranganna lua, catchphrases lua, agus go leor eile.

Is éard atá i tacar sonraí Jeopardy ná bailiúchán de níos mó ná 200,000 ceist atá le feiceáil sa seó teilifíse tráth na gceist a thug úsáideoir Reddit le chéile. Déantar gach pointe sonraí a aicmiú de réir a dháta craolta, uimhir eipeasóid, luach, babhta, agus ceist / freagra.

Óráid Fuaime

  • Corpas Wikipedia Labhartha (Nasc)

Óráid Fuaime Tá an tacar sonraí seo foirfe do gach duine atá ag iarraidh dul níos faide ná an Béarla. Tá bailiúchán alt sa tacar sonraí seo a labhraítear in Ollainnis agus i nGearmáinis agus i mBéarla. Tá réimse éagsúil ábhar agus tacar cainteoirí ann a théann isteach sna céadta uair an chloig.

Tá 2000 trascríbhinn comhrá teileafóin i mBéarla i tacar sonraí Béarla HUB5 40. Soláthraíonn an Institiúid Náisiúnta Caighdeán agus Teicneolaíochta na sonraí, agus tá a phríomhfhócas ar chaint chomhrá a aithint agus urlabhra a thiontú go téacs.

Is éard atá i tacar sonraí LibriSpeech bailiúchán de bheagnach 1000 uair an chloig de chaint Bhéarla a tógadh agus a dheighilt i gceart ag ábhair i gcaibidlí ó chlosleabhair, rud a fhágann gur uirlis iontach í do Phróiseáil Teanga Nádúrtha.

Léirmheasanna

Tá bailiúchán mór de thart ar 8.5 milliún athbhreithniú ar tacar sonraí Yelp ar 160,000 móide gnóthas, a n-athbhreithnithe agus sonraí úsáideora. Is féidir na hathbhreithnithe a úsáid chun do mhúnlaí a oiliúint ar anailís meon. Ina theannta sin, tá níos mó ná 200,000 pictiúr sa tacar sonraí seo a chlúdaíonn ocht n-ionad cathrach.

Tá athbhreithnithe IMDB i measc na tacar sonraí is mó éilimh ina bhfuil faisnéis theilgthe, rátálacha, tuairisc, agus seánra do níos mó ná 50 míle scannán. Is féidir an tacar sonraí seo a úsáid chun do mhúnlaí foghlama meaisín a thástáil agus a oiliúint.

  • Tacar Sonraí Athbhreithnithe agus Rátálacha Amazon (Nasc)

Tá bailiúchán luachmhar meiteashonraí agus athbhreithnithe ar tháirgí éagsúla ó Amazon a bailíodh ó 1996 go 2014 i tacar sonraí athbhreithnithe agus rátála Amazon - thart ar 142.8 milliún taifead. Cuimsíonn na meiteashonraí an praghas, tuairisc an táirge, branda, catagóir agus go leor eile, cé go bhfuil cáilíocht an téacs, úsáideacht an téacs, rátálacha agus go leor eile sna hathbhreithnithe.

Mar sin, cén tacar sonraí a roghnaigh tú chun do mhúnla foghlama meaisín a oiliúint?

De réir mar a théann muid, fágfaimid a pro-tip. 

Déan cinnte dul tríd an gcomhad README go críochnúil sula roghnaíonn tú tacar sonraí NLP do do chuid riachtanas. Beidh an fhaisnéis uile a theastaíonn uait, mar ábhar an tacar sonraí, na paraiméadair éagsúla ar a ndearnadh na sonraí a chatagóiriú, agus na cásanna úsáide dóchúla den tacar sonraí, sa tacar sonraí.

Beag beann ar na samhlacha a thógann tú, tá ionchas corraitheach ann ár meaisíní a chomhtháthú níos dlúithe agus go bunúsach lenár saol. Le NLP, méadaítear na féidearthachtaí maidir le gnó, scannáin, aithint cainte, airgeadas agus go leor eile. Má tá tú ag lorg níos mó tacar sonraí den sórt sin Cliceáil Anseo.

Comhroinn Shóisialta

Bealtaine tú like Chomh maith leis sin