Datasets Oscailte
Faigh amach tacar sonraí foinse oscailte a thabharfaidh deis duit samhlacha ML a oiliúint
Datasets Foinse Oscailte Chun Tús a Chur le Múnlaí AI / ML
Níl aschur do mhúnlaí AI & ML ach chomh maith leis na sonraí a úsáideann tú chun iad a oiliúint - mar sin tá an cruinneas a chuireann tú i bhfeidhm maidir le comhiomlánú sonraí agus clibeáil agus aithint na sonraí sin tábhachtach!
Mar sin más mian leat tionscnamh nua AI / ML a thosú agus anois tá tú ag tuiscint go gasta go mbeidh teacht ar shonraí oiliúna ardchaighdeáin ar cheann de na gnéithe is dúshlánaí de do thionscadal mar is iad tacair sonraí ardchaighdeáin an breosla a choinníonn an AI / Inneall ML ag rith. Tá liosta de thacair sonraí oscailte carntha againn atá saor in aisce chun do mhúnlaí AI / ML na todhchaí a úsáid agus a oiliúint.
| Speisialtóireacht | Cineál Sonraí | Ainm Sonraí | Tionscal / Roinn. | Cás Anótála / Úsáide | Nasc |
|---|---|---|---|---|---|
| +NLP | Téacs | Athbhreithnithe Amazon | E-thráchtáil | Anailís ar Thuairimí | Nasc |
| Tuairisc | Sraith d'athbhreithnithe agus rátálacha 35 Mn le 18 mbliana anuas i ngnáth-théacs le sonraí úsáideora agus táirge. | ||||
| +NLP | Téacs | Ceanglaíonn Wikipedia Sonraí | Go ginearálta | Nasc | |
| Tuairisc | Níos mó ná 4 mhilliún alt ina bhfuil 1.9 billiún focal ó Vicipéid. Tá hipearnasc i ngach alt don eintiteas gaolmhar. | ||||
| +NLP | Téacs | Banc Crann Seolta Standford | Siamsaíocht | Anailís ar Thuairimí | Nasc |
| Tuairisc | Tacar sonraí anótálacha meon le haghaidh breis is 10,000 abairt léirmheasa scannáin Rotten Tomatoes. Ar fáil ag leibhéal na frása - déantar gach abairt a pharsáil ina fho-frásaí trí na crainn pharsála a dhénárú i bhformáid Penn Treebank. | ||||
| +NLP | Téacs | Seoladh Aerlíne Twitter na SA | Airline | Anailís ar Thuairimí | Nasc |
| Tuairisc | Bhí tvuíteanna faoi US Airlines in 2015 roinnte ina mothúcháin dhearfacha, neodracha agus diúltacha. | ||||
| +CV | Íomha | Íomhánet | Go ginearálta | Nasc | |
| Tuairisc | Tacar sonraí le breis is 14 mhilliún íomhá i bhformáidí comhaid éagsúla mapáilte chuig thart ar 21,000 comhshraith. Is comhchiallaigh iad comhshraith le heintitis ghaolmhara i láthair mar íomhá. Tá boscaí teorannaithe ag 1 mhilliún íomhá agus tá gnéithe SIFT ag níos mó ná 1 mhilliún íomhá. | ||||
| +CV | Íomha | Íomhánna Oscailte Google | Go ginearálta | Nasc | |
| Tuairisc | Tacar sonraí cosúil le ImageNet le 600 catagóir. Ar fáil i scoilteanna forbartha, bailíochtaithe agus oiliúna. Tá boscaí teorann agus caidrimh amhairc i roinnt íomhánna freisin. | ||||
| +NLP | Téacs | Comhráite Scannán Cornell | Siamsaíocht | Dialóga | Nasc |
| Tuairisc | Bailiúchán de chomhráite ficseanúla, le meiteashonraí de charachtair agus scannáin. Is comhrá idir beirt gach ró, i bhformáid ceiste agus freagra. | ||||
| Tuairisc | Tacar sonraí ceisteanna agus freagraí le ceisteanna agus freagraí ó thairseach Yahoo Answers idir Aibreán 2007 agus Deireadh Fómhair 2007. | ||||
| +NLP | Téacs | An tUasal Marco | Go ginearálta | Freagra Ceist | Nasc |
| Tuairisc | Tacar sonraí ceisteanna agus freagraí le hanótálacha ó logaí cuardaigh gréasáin Bing. Tá freagra arna sholáthar ag úsáideoir i ngach ceist, chomh maith le sleachta gréasáin ina bhfuil an freagra. | ||||
| +NLP | Téacs | Tacar Sonraí Ceisteanna Nádúrtha | Go ginearálta | Freagra Ceist | Nasc |
| Tuairisc | Scaoilte ag Google, tá ceisteanna agus freagraí fíorúsáideoirí ó ailt Vicipéid sa tacar sonraí seo. | ||||
| +NLP | Téacs | DBPedia | Go ginearálta | Graf Eolais | Nasc |
| Tuairisc | Léiriú struchtúrtha de Vicipéid, le heintitis agus caidrimh eastósctha mar Ghraf Eolais. | ||||
| +NLP | Téacs | YAGO | Go ginearálta | Graf Eolais | Nasc |
| Tuairisc | Graf eolais ina bhfuil eintitis agus caidrimh ó Vicipéid, WordNet, agus GeoNames. | ||||
| +NLP | Téacs | Saorbhun | Go ginearálta | Graf Eolais | Nasc |
| Tuairisc | Bunachar eolais slua-fhoinsithe ina bhfuil eintitis agus caidrimh, atá corpraithe anois i ngraf eolais Google. | ||||
| +NLP | Téacs | Ontonótaí | Go ginearálta | Lipéadú Ról Seimeantach | Nasc |
| Tuairisc | Corpas le hanótálacha comhréire, séimeantacha agus dioscúrsa a úsáidtear i dtascanna comhroinnte CoNLL. | ||||
| Tuairisc | Tacar sonraí Béarla atá anótáilte d'eintitis ainmnithe amhail duine, eagraíocht agus suíomh. | ||||
| +CV | Íomha | COCO | Go ginearálta | Brath Cuspóra | Nasc |
| Tuairisc | Réada Coitianta i gComhthéacs: tacar sonraí atá anótáilte go saibhir le haghaidh braiteadh, deighilt agus fotheidealú réad. | ||||
| +CV | Íomha | PASCAL VOC | Go ginearálta | Brath Cuspóra | Nasc |
| Tuairisc | Tacar sonraí tagarmhairc le haghaidh dúshláin maidir le braiteadh agus deighilt réad. | ||||
| +CV | Íomha | cityscapes | Tiomáint Uathrialach | Deighilt Séimeantach | Nasc |
| Tuairisc | Tacar sonraí le haghaidh tuiscint ar radharc uirbeach le hanótálacha ar leibhéal picteilín do 30 rang. | ||||
| +CV | Íomha | MNIST | Go ginearálta | Aicmiú Digit | Nasc |
| Tuairisc | Tacar sonraí digití lámhscríofa le 60,000 íomhá oiliúna agus 10,000 íomhá tástála de 28x28 picteilín. | ||||
| +CV | Íomha | Faisean-MNIST | Miondíola | Aicmiú Íomhá | Nasc |
| Tuairisc | Tacar sonraí d'íomhánna alt Zalando san fhormáid chéanna le MNIST, a úsáidtear mar ionadach isteach le haghaidh tagarmharcála. | ||||
| +NLP | Fuaime | LibiSpeech | Go ginearálta | ASR | Nasc |
| Tuairisc | Corpas cainte Béarla léite díorthaithe ó leabhair fuaime, le 1000 uair an chloig de chaint agus téacsanna gaolmhara. | ||||
| +NLP | Fuaime | TED-LIUM | Go ginearálta | ASR | Nasc |
| Tuairisc | Cainteanna TED trascríofa le fuaim agus trascríbhinní ailínithe le haghaidh taighde ar aitheantas cainte. | ||||
| +NLP | Fuaime | TIMIT | Go ginearálta | Aithint Fóinéime | Nasc |
| Tuairisc | Caint thras-scríofa go fóinéiteach cainteoirí Béarla Mheiriceá, a úsáidtear go forleathan le haghaidh tascanna aitheantais fóinéime. | ||||
| +NLP | Fuaime | Guth Coitianta | Go ginearálta | ASR | Nasc |
| Tuairisc | Corpas ilteangach de chaint léite arna cur ar fáil ag oibrithe deonacha ar fud an domhain. | ||||
| +NLP | Fuaime | VoxCeleb | Go ginearálta | Aitheantas Cainteoirí | Nasc |
| Tuairisc | Tacar sonraí aitheantais cainteoirí ar scála mór a bailíodh ó fhíseáin YouTube. | ||||
| +NLP | Téacs | Dumpáil Vicipéide | Go ginearálta | Samhaltú Teanga | Nasc |
| Tuairisc | Dumpálacha téacs iomlána d’ailt Vicipéid, a nuashonraítear go rialta, a úsáidtear le haghaidh réamh-oiliúna samhlacha teanga. | ||||
| +NLP | Téacs | Gigaword | Nuacht | Samhaltú Teanga | Nasc |
| Tuairisc | Cartlann chuimsitheach de shonraí téacs nuachta ó ghníomhaireachtaí nuachta éagsúla. | ||||
| +NLP | Téacs | Léirmheasanna IMDB | Siamsaíocht | Anailís ar Thuairimí | Nasc |
| Tuairisc | Tacar sonraí mór léirmheasanna scannán le haghaidh aicmiú mothúchán dénártha. | ||||
| +CV | Video | Cinéitic-700 | Go ginearálta | Aitheantas Gníomhaíochta | Nasc |
| Tuairisc | Tacar sonraí fairsing, ardchaighdeáin de ghearrthóga físe YouTube a chlúdaíonn 700 rang gníomhaíochta daonna. | ||||
| +CV | Video | UCF101 | Go ginearálta | Aitheantas Gníomhaíochta | Nasc |
| Tuairisc | Tacar sonraí de fhíseáin ghníomhaíochta réadúla, le 101 catagóir gníomhaíochta. | ||||
| +CV | Video | HMDB51 | Go ginearálta | Aitheantas Gníomhaíochta | Nasc |
| Tuairisc | Bunachar sonraí mór físeáin ghluaiseachta daonna le 51 catagóir gníomhaíochta. | ||||
| Tuairisc | Bunachar sonraí de ghrianghraif aghaidhe atá deartha chun aitheantas aghaidhe neamhshrianta a staidéar. | ||||
| +CV | Íomha | CASIA-aghaidh Gréasáin | Go ginearálta | Aghaidh Aitheantas | Nasc |
| Tuairisc | Tacar sonraí ina bhfuil na milliúin íomhánna aghaidhe chun samhlacha aitheantais aghaidhe domhain a oiliúint. | ||||
| +NLP | Téacs | SQuAD | Go ginearálta | Léamhthuiscint | Nasc |
| Tuairisc | Tacar Sonraí Freagartha Ceisteanna Stanford: ceisteanna a chuir oibrithe sluaite ar shraith alt Vicipéid. | ||||
| Tuairisc | Tacar sonraí tuisceana meaisín le ceisteanna agus freagraí bunaithe ar ailt nuachta CNN. | ||||
| +NLP | Téacs | Il-NLI | Go ginearálta | Infheireacht Teanga Nádúrtha | Nasc |
| Tuairisc | Tacar sonraí le haghaidh asbhaint teanga nádúrtha péirí abairtí ar fud seánraí éagsúla. | ||||
| +NLP | Téacs | SNLI | Go ginearálta | Infheireacht Teanga Nádúrtha | Nasc |
| Tuairisc | Corpas Inference Teanga Nádúrtha Stanford le péirí abairtí lipéadaithe mar entiment, contrárthacht, nó neodrach. | ||||
| Tuairisc | Bailiúchán de bhreis is 100 milliún comhartha a baineadh as an tsraith altanna fíoraithe Maith agus Réadmhaoine ar Vicipéid. | ||||
| Tuairisc | Tacar sonraí de 16,185 íomhá de 196 aicme gluaisteán. | ||||
| +CV | Íomha | Bláthanna Oxford 102 | luibheolaíocht | Aicmiú mínmhín | Nasc |
| Tuairisc | 102 catagóir bláthanna a bhíonn coitianta sa Ríocht Aontaithe. | ||||
| +CV | Íomha | CIFAR-10 | Go ginearálta | Aicmiú Íomhá | Nasc |
| Tuairisc | Íomhánna de 10 rang: eitleán, gluaisteán, éan, cat, fia, madra, frog, capall, long, agus trucail. | ||||
| +CV | Íomha | CIFAR-100 | Go ginearálta | Aicmiú Íomhá | Nasc |
| Tuairisc | Tacar sonraí cosúil le CIFAR-10, ach le 100 rang mínmhionsonraithe. | ||||
| +CV | Íomha | Leagan Amach Duine VOC | Go ginearálta | Meastachán Seasaimh | Nasc |
| Tuairisc | Cuid de PASCAL VOC ag díriú ar anótálacha leagan amach pearsanra amhail ceann, lámha agus cosa. | ||||
| +CV | Íomha | Staidiúir Dhaonna MPII | Go ginearálta | Meastachán Seasaimh | Nasc |
| Tuairisc | Thart ar 25,000 íomhá ina bhfuil breis is 40,000 duine le hailt choirp anótáilte. | ||||
| Tuairisc | Bailiúchán d’ailt nuachta Reuters le haghaidh taighde ar chatagóiriú téacs. | ||||
| +NLP | Téacs | 20 Grúpa Nuachta | Go ginearálta | Aicmiú Téacs | Nasc |
| Tuairisc | Bailiúchán de 20,000 doiciméad grúpa nuachta roinnte ina 20 grúpa nuachta éagsúil. | ||||