Datasets Oscailte

Faigh amach tacar sonraí foinse oscailte a thabharfaidh deis duit samhlacha ML a oiliúint

Oscail tacair shonraí

Datasets Foinse Oscailte Chun Tús a Chur le Múnlaí AI / ML

Níl aschur do mhúnlaí AI & ML ach chomh maith leis na sonraí a úsáideann tú chun iad a oiliúint - mar sin tá an cruinneas a chuireann tú i bhfeidhm maidir le comhiomlánú sonraí agus clibeáil agus aithint na sonraí sin tábhachtach!

Mar sin más mian leat tionscnamh nua AI / ML a thosú agus anois tá tú ag tuiscint go gasta go mbeidh teacht ar shonraí oiliúna ardchaighdeáin ar cheann de na gnéithe is dúshlánaí de do thionscadal mar is iad tacair sonraí ardchaighdeáin an breosla a choinníonn an AI / Inneall ML ag rith. Tá liosta de thacair sonraí oscailte carntha againn atá saor in aisce chun do mhúnlaí AI / ML na todhchaí a úsáid agus a oiliúint.

SpeisialtóireachtCineál SonraíAinm SonraíTionscal / Roinn.Cás Anótála / ÚsáideTuairiscNasc
NLPTéacsAthbhreithnithe AmazonE-thráchtáilAnailís ar ThuairimíSraith d'athbhreithnithe agus rátálacha 35 Mn le 18 mbliana anuas i ngnáth-théacs le sonraí úsáideora agus táirge.Nasc
NLPTéacsCeanglaíonn Wikipedia SonraíGo ginearáltaNíos mó ná 4 Mn. earraí ina bhfuil 1.9 Bn. focal a chuimsíonn focail agus frásaí chomh maith le míreanna.Nasc
NLPTéacsBanc Crann Seolta StandfordSiamsaíochtAnailís ar ThuairimíTacar sonraí anótálacha seolta do níos mó ná 10,000 píosa athbhreithnithe ó Rotten Tomatoes i bhformáid comhaid HTMLNasc
NLPTéacsSeoladh Aerlíne Twitter na SAAirlineAnailís ar ThuairimíTweets 2015 ar US Airlines arna dtabhairt isteach in toin dearfacha, diúltacha agus neodrachaNasc
CVÍomha Aghaidheanna Lipéadaithe Sa FiáinGo ginearáltaAitheantas facialTacar sonraí ina bhfuil níos mó ná 13,000 aghaidheanna cropped le dhá phictiúr éagsúla le haghaidh oiliúna aitheantais aghaidhe.Nasc
CVFíseán, ÍomháTacar Sonraí UMDFacesGo ginearáltaAitheantas facialTacar sonraí anótáilte ina bhfuil níos mó ná 367,000 aghaidheanna ó níos mó ná 8,000 ábhar a chuimsíonn íomhánna neamhbheo agus físeáin.Nasc
CVÍomha ÍomhánetGo ginearáltaTacar sonraí le níos mó ná 14 Mn. íomhánna i bhformáidí comhaid éagsúla, eagraithe de réir ordlathas WordNet.Nasc
CVÍomha Íomhánna Oscailte GoogleGo ginearálta9 Mn. URLanna chun íomhánna poiblí a chatagóiriú ó níos mó ná 6,000 catagóir.Nasc
NLPTéacsBunachar Sonraí Cúraim Chriticiúil MIMICCúram SláinteTacair Sonraí Fiseolaíochta Ríomhaireachtúla le sonraí dí-aitheanta ó 40,000 othar cúraim chriticiúil. Tá faisnéis sa tacar sonraí mar dhéimeagrafaic, comharthaí ríthábhachtach, cógais, srl.Nasc
CVÍomhaOifig Taistil agus Turasóireachta Náisiúnta na SAturasóireachtSoláthraíonn sé grianghraif leathana ó thionscal na turasóireachta le bunachair sonraí iontaofa, a chuimsíonn ábhair mar thaisteal isteach agus amach agus faisnéis idirnáisiúnta do thurasóirí.Nasc
NLPTéacsAn Roinn IompairturasóireachtTacair sonraí turasóireachta lena n-áirítear Páirceanna Náisiúnta, cláir thiománaithe, droichid & faisnéis iarnróid srl.Nasc
NLPFuaimeCorpas Fotheideal Fuaime FlickrGo ginearáltaNíos mó ná 40k fotheideal labhartha ó 8,000 grianghraf atá deartha le haghaidh patrúin cainte gan mhaoirsiúNasc
NLPFuaimeTacar Sonraí Orduithe UrlabhraGo ginearáltaAitheantas Urlabhra, Nóta Fuaime1 soicind fada fada ó na mílte duine, chun comhéadan guth bunúsach a thógáil.Nasc
NLPFuaimeTacair Sonraí Fuaime ComhshaoilGo ginearáltaTacair sonraí fuaime comhshaoil ​​ina bhfuil táblaí fuaime imeachtaí agus táblaí radhairc fuaimiúla.Nasc
NLPTéacsTacar Sonraí Taighde Oscailte COVID-19 Cúram SláinteAI LeighisTacar sonraí taighde ina bhfuil 45,000 alt léannta ar COVID-19 & teaghlach víris coronavirus.Nasc
CVÍomhaDataset Oscailte Waymo FeithicleachNa tacair sonraí tiomána uathrialacha is éagsúla a d’eisigh WaymoNasc
CVÍomhaGéanóma Amhairc Go ginearáltaFotheidealú ÍomháBunachar eolais amhairc le fotheidealú mionsonraithe ar níos mó ná 100K íomháNasc
CVÍomhaLipéad Rialtais Phoiblí.Sraith mhór íomhánna anótáilte inrochtana tríd an Labelme MatlabNasc
CVÍomhaCOIL100Go ginearáltaNíos mó ná 100 réad éagsúil a tógadh ó iliomad uillinneacha (ie 360 ​​céim)Nasc
CVÍomhaDataset Madraí StanfordGo ginearáltaRinneadh níos mó ná 20,500+ íomhá a chatagóiriú i tacar íomhá de 120 póir madraí éagsúlaNasc
CVÍomhaAitheantas Radharc faoi DhíonGo ginearáltaAitheantas RadharcTacar sonraí sonrach ina mbeidh 15620 íomhá ó 67 chatagóir faoi dhíon chun samhlacha aitheantais radhairc a thógáilNasc
CVÍomhaVisualQAGo ginearáltaTacar sonraí a chuimsíonn ceisteanna oscailte a bhaineann le 265,016 grianghraf a éilíonn tuiscint ar fhís agus ar thuiscint teanga chun freagairt.Nasc
NLPTéacsTacar Sonraí Anailíse Seolta MultidomainE-thráchtáilAnailís ar ThuairimíTacar sonraí ina bhfuil athbhreithnithe ar tháirgí ó AmazonNasc
NLPTéacsLéirmheasanna IMDBSiamsaíochtAnailís ar ThuairimíTacar sonraí ina bhfuil 25000 léirmheas scannáin le haghaidh anailíse meonNasc
NLPTéacsSeolta140Go ginearáltaAnailís ar ThuairimíTacar sonraí ina bhfuil 160,000 tweets le straoiseoga réamh-bhaint chun cruinneas níos airdeNasc
NLPTéacsCorpas BloggerGo ginearáltaAnanlysis KeypraseTacar sonraí ina bhfuil 681,288 post blag ó blogger.com comhdhéanta de 200 tarlú ar a laghad d’fhocail Bhéarla a úsáidtear go forleathan.Nasc
NLPTéacsChontúirtGo ginearáltaOiliúint ChatbotTacar sonraí le níos mó ná 200,000 ceist is féidir a úsáid chun samhlacha foghlama meaisín a oiliúint chun freagairt go cliste go clisteNasc
NLPTéacsBailiúchán Spam SMS i mBéarlaTelecomAitheantas SpamTacar sonraí teachtaireachta turscair ina bhfuil 5,574 SMS BéarlaNasc
NLPTéacsLéirmheasanna YelpGo ginearáltaAnailís ar ThuairimíTacar sonraí le hathbhreithniú os cionn 5 mn foilsithe ag YelpNasc
NLPTéacsSpambase UCIFiontarAitheantas SpamTacar sonraí mór de ríomhphoist spam, úsáideach le haghaidh scagadh turscair.Nasc
CVFíseán, ÍomháBerkeley DeepDrive BDD100kFeithicleachFeithiclí UathrialachaCeann de na tacar sonraí is mó le haghaidh AI féin-tiomána ina bhfuil 1,100 uair an chloig d’eispéiris tiomána i mbreis agus 100,000 físeán ó amanna éagsúla den lá ó cheantar Nua Eabhrac agus San Francisco.Nasc
CVVideocamóg.aiFeithicleachFeithiclí Uathrialacha Tacar sonraí tiomána mhórbhealaigh 7 n-uaire a chuimsíonn faisnéis faoi luas, luasghéarú, uillinn stiúrtha agus comhordanáidí GPSNasc
CVFíseán, ÍomháDataset CityscapeFeithicleachLipéad Séimeantach d’Fheithicil UathrialachTacar sonraí de 5,000 anótáil ar leibhéal picteilín móide tacar níos mó de 20,000 fráma le nótaí laga i seichimh físe steiréó, taifeadta ó 50 cathair dhifriúlaNasc
CVÍomhaTacar Sonraí Comhartha Tráchta KUL na BeilgeFeithicleachFeithiclí UathrialachaNíos mó ná 10000+ anótáil comharthaí tráchta ó réigiún Fhlóndras bunaithe ar chomharthaí tráchta ar leithligh ó gach cearn den Bheilg.Nasc
CVÍomhaLISA: Saotharlann do Ghluaisteáin Chliste agus Shábháilte, Datasets UC San DiegoFeithicleachFeithiclí UathrialachaTacar sonraí saibhir ina bhfuil comharthaí tráchta, braite feithiclí, soilse tráchta agus patrúin ruthag.Nasc
CVÍomhaCIFAR-10Go ginearáltaAitheantas RéadaTacar sonraí a chuimsíonn 50,000 íomhá agus 10,000 íomhá tástála (ie 60,000 íomhá daite 32 × 32 i 10 rang) chun réad a aithint.Nasc
CVÍomhaMNIST FaiseanFaiseanTacar sonraí íomhá ina bhfuil 60,000 sampla agus tacar tástála de 10,000 sampla in íomhánna liathscála 28 × 28, a bhaineann le lipéad ó 10 rang.Nasc
CVÍomhaTacar Sonraí IMDB-WikiSiamsaíochtAitheantas facialTacar sonraí mór d’íomhánna aghaidhe le lipéid ar nós inscne agus aois. As na 523,051 íomhá aghaidh iomlán, faightear 460,723 íomhá ó 20,284 cáiliúla ó IMDB & 62,328 ó Wikipedia.Nasc
CVVideoCinéitic-700Go ginearáltaI gcás gach aicme gníomhaíochta, tá 650,000 gearrthóg físe sa tacar sonraí ardchaighdeáin agus cuimsíonn sé 700 rang gníomhaíochta daonna le 600 gearrthóg físe ar a laghad. Anseo, maireann gach gearrthóg 10 soicind nó mar sin.Nasc
CVÍomhaMS CócóGo ginearáltaBrath oibiachta, DeighiltTá 328k íomhá sa tacar sonraí agus tá cásanna 2.5 Mn san iomlán ann agus 91 íomhá réada chun oiliúint a dhéanamh ar mhúnlaí ML ar scála mór, deighilt agus fotheidealú sonraí.Nasc
CVÍomhaTacar sonraí údar daonna MPIIGo ginearáltaTá timpeall 25K grianghraf ina bhfuil níos mó ná 40K duine le hailt choirp anótáilte san áireamh sa tacar sonraí, a úsáidtear chun meastachán ar staid an duine a chur in iúl. Ar an iomlán clúdaíonn an tacar sonraí 410 gníomhaíocht dhaonna agus tugtar lipéad gníomhaíochta ar gach íomhá.Nasc
CVÍomhaÍomhánna OscailteGo ginearáltaNótaí suímh oibiachtúlaTacar sonraí le thart ar 9 Mn íomhá anótáilte le lipéid leibhéal íomhá, boscaí teorannaithe réada, deighilt réada srl. Tá 16 Mn sa tacar sonraí freisin. boscaí teorantacha do 600 aicme réada ar íomhánna 1.9 Mn.Nasc
CVVideoArdán Oscailte Apollo, le Baidu Inc, an tSínFeithicleachBosca Ceangailte, LiDARTacar sonraí saibhir tiomána uathrialach, a sholáthraíonn na sonraí riachtanacha d’fhorbróirí maidir le tiomáint uathrialach chun éifeachtúlacht an atrátha nuálaíoch a luathú.Nasc
CVFíseán, ÍomháArgo, le Argo, SAMFeithicleachBosca Ceangailte, Sreabhadh Optúil, Lipéad Iompraíochta, Lipéad Séimeantach, Marcáil LánaTacar sonraí féin-tiomána a chuimsíonn léarscáileanna HD le meiteashonraí geoiméadracha & séimeanta ie lárlínte lána, treo lána, agus limistéar iniompartha. Úsáidtear an tacar sonraí chun samhlacha ML a oiliúint, chun halgartaim aitheantais níos cruinne a dhéanamh, a chabhróidh le feithiclí féin-tiomána nascleanúint a dhéanamh go sábháilte.Nasc
CVVideoSoilse Tráchta Beaga Bosch, le Bosch North America ResearchFeithicleachBosca CeangailteTacar sonraí a chuimsíonn 13427 íomhá ceamara le taifeach 1280 * 720 chun córas braite solais tráchta fís-bhunaithe a thógáil. Tá níos mó ná 24000 soilse tráchta anótáilte sa tacar sonraí.Nasc
CVVideoBrain4Cars, le Cornell Univ., Stáit Aontaithe MheiriceáFeithicleachLipéad IompraíochtaTacar sonraí ina bhfuil sraith braiteoirí cábáin (ceamaraí, braiteoirí tadhaill, gairis chliste, srl.) D’fhonn staitisticí úsáideacha a bhaint amach faoi airdeall an tiománaí. Féadfaidh ár halgartaim tiománaithe atá codlatach nó a bhfuil aird orthu a bhrath agus aláraim riachtanacha a threisiú chun cosaint a fheabhsú.Nasc
CVÍomhaCULane, le Sínis Univ. de Hong Cong, Beijing, an tSínFeithicleachMarcáil LánaBaineadh tacar sonraí Fís Ríomhaireachta ar bhrath lána tráchta, arb é atá ann 55 uair an chloig d’fhíseáin ar baineadh 133,235 (tacar oiliúna 88880, tacar bailíochtaithe 9675, agus 34680 tacar tástála) díobh. Bailíonn ceamaraí é atá suite ar sé fheithicil éagsúla atá á dtiomáint ag tiománaithe éagsúla i mBéising.Nasc
CVVideoDAVIS, le Univ. de Zurich, ETH ¨ Zurich, an Ghearmáin, an EilvéisFeithicleachTacar sonraí oiliúna tiomána feithicle deireadh go deireadh a úsáideann ceamara fráma + imeacht DAVIS. Úsáidtear sonraí gluaisteán mar stiúradh, sciorradh, GPS, srl. Chun comhleá sonraí fráma agus imeachta le haghaidh aipeanna ngluaisteán a mheas.Nasc
CVVideoDBNet, le Shanghai Jiao Tong Univ., Xiamen Univ., An tSínFeithicleachPointe Scamall, LiDARSonraí tiomána 1000 KM sa saol fíor, lena n-áirítear físeán ailínithe, scamall pointe, GPS agus iompar tiománaithe le haghaidh taighde domhain ar iompraíochtaí tiomána.Nasc
CVVideoDr (súil) ve, le Univ. de Modena agus Reggio Emilia, Modena, an IodáilFeithicleachLipéad IompraíochtaTacar sonraí ina bhfuil 74 seicheamh físe de 5 nóiméad an ceann, a anótáladh i níos mó ná 500,000 fráma. Is éard atá sa tacar sonraí suíomhanna Geo-thagartha, luas tiomána, cúrsa, agus lipéid freisin ar shocruithe gaisce tiománaithe agus a gcomhtháthú ama ag soláthar léarscáileanna tasc-shonracha.Nasc
CVVideoETH Coisithe (2009), le ETH Zurich, Zurich, an EilvéisGo ginearáltaBosca CeangailteTacar sonraí de 74 seicheamh físe 5 nóiméad an ceann, anótáilte i níos mó ná 500,000 fráma. Soláthraíonn an tacar sonraí suíomhanna geo-thagartha, luas tiomána, treo, agus lipéid freisin socruithe gaisce do thiománaithe agus a gcomhtháthú ama, lena n-áirítear léarscáileanna tasc-shonracha.Nasc
CVVideoFord (2009), le Univ. de Michigan, Michigan, SAMFeithicleachBosca Ceangailte ,, LiDARTacar sonraí arna thiomsú ag feithicil talún uathoibrithe atá armtha le scanóir Velodyne 3D-lidar, dhá lidars Rieg a bhfuil súil chun tosaigh acu, Aonad Tomhais Inertial teicniúil agus tomhaltóra (IMU), agus córas ceamara omnidirectional Point Grey Ladybug3.Nasc
CVVideoSteirió Dúshlánach HCI, Taighde Corparáide Bosch, Hildesheim, an GhearmáinGo ginearáltaTacar sonraí de roinnt milliún fráma ó radhairc físe a gabhadh a chuimsíonn raon leathan dálaí aimsire éagsúla, iliomad sraitheanna gluaisne agus doimhne; cásanna sa chathair agus faoin tuath, srl.Nasc
CVVideoJAAD, ag Ollscoil Eabhrac, an Úcráin, CeanadaFeithicleachBosca Ceangailte, Lipéad Iompraíochta"Is tacar sonraí é JAAD chun staidéar a dhéanamh ar chomh-aird i gcomhthéacs tiomána uathrialach. Tá an fócas ar iompraíochtaí coisithe agus tiománaithe ag an bpointe trasnaithe agus na tosca a mbíonn tionchar acu orthu. Chuige seo, soláthraíonn tacar sonraí JAAD bailiúchán anótáilte saibhir de 346 físeán gairid gearrthóga (5-10 soic ar fhad) a bhaintear as níos mó ná 240 uair an chloig de phíosaí scannáin tiomána ó áiteanna éagsúla i Meiriceá Thuaidh agus in Oirthear na hEorpa. Úsáidtear boscaí ceangail le clibeanna folaithe do gach coisithe a fhágann go bhfuil an tacar sonraí seo oiriúnach do choisithe a bhrath. Sonraíonn anótálacha iompraíochta iompraíochtaí do choisithe. a idirghníomhaíonn leis an tiománaí nó a dteastaíonn aird uaidh. I gcás gach físeáin tá roinnt clibeanna (aimsir, láithreacha, srl.) agus lipéid iompraíochta stampáilte ama (m.sh. stopadh, ag siúl, ag féachaint, srl.) Ina theannta sin, tá liosta de na tréithe déimeagrafacha curtha ar fáil do gach coisí (m.sh. aois, inscne, treo gluaisne, srl.) chomh maith le liosta d’eilimintí radharc tráchta infheicthe (m.sh. stadchomhartha, comhartha tráchta, srl.) i ngach fráma. "Nasc
CVVideoKAIST Uirbeach, le KAIST, An Chóiré TheasGo ginearáltaLiDARCuimsíonn an bailiú sonraí braiteoirí suímh iomadúla le haghaidh sonraí LiDAR agus íomhánna steirió a dhíríonn ar limistéar uirbeach an-chasta (m.sh. ceantair cathrach, foirgnimh chasta agus ceantair chónaithe).Nasc
CVÍomhaComhartha Tráchta LISA, le Univ. de California, San Diego, Stáit Aontaithe MheiriceáFeithicleachBosca CeangailteAn tacar tacar sonraí ina bhfuil físeáin agus frámaí anótáilte ina bhfuil comharthaí tráchta na SA. Scaoiltear é in dhá chéim, ceann nach bhfuil ann ach na pictiúir agus ceann amháin le pictiúir agus físeáin araon.Nasc
CVÍomhaMapillary Vistas, le Mapillary AB, GlobalFeithicleachLipéad SéimeantachTacar sonraí grianghrafadóireachta ar leibhéal na sráide chun radhairc sráide ar fud an domhain a léirmhíniú le nótaí daonna atá cruinn ó thaobh picteilín agus a bhaineann go sonrach le cás.Nasc
CVFíseán, ÍomháKITTI séimeantach, le hOllscoil Bonn, Karlsruhe, an GhearmáinFeithicleachBosca Ceangailte, Lipéad Séimeantach, Marcáil LánaTacar sonraí a chuimsíonn anótáil shéimeantach do gach seicheamh Tagarmharc Odometry. Anótálann an tacar sonraí cineálacha éagsúla tráchta atá ag gluaiseacht agus neamhghluaiste: lena n-áirítear gluaisteáin, rothair, rothair, coisithe agus rothair, rud a fhágann gur féidir staidéar a dhéanamh ar rudaí sa radharc.Nasc
CVVideoStanford Track, le Stanford Univ., Stáit Aontaithe MheiriceáFeithicleachBrath / Aicmiú Rudaí LiDAR, GPS, CóidTacar sonraí a chuimsíonn 14,000 rianta réada lipéadaithe mar a bhreathnaíonn LIDAR Velodyne HDL-64E S2 i radhairc nádúrtha sráide, is féidir a úsáid chun samhlacha foghlama meaisín a oiliúint le haghaidh Aitheantas Réada 3D.Nasc
CVFíseán, ÍomháAn Boxy Dataset, le Bosch, Stáit Aontaithe MheiriceáFeithicleachBosca Ceangail / Brath FeithicleTacar sonraí braite feithiclí ina bhfuil 2 mhilliún feithicil anótáilte chun straitéisí aitheantais réada a oiliúint agus a anailísiú do ghluaisteáin féin-tiomána ar mhótarbhealaí.Nasc
CVVideoTME Motorway, le Seiceach Technical Univ., Tuaisceart na hIodáileFeithicleachBosca CeangailteTacar Sonraí de 28 ghearrthóg ar feadh 27 nóiméad san iomlán arna dháileadh i 30,000+ fráma anótála feithicle. Táirgeadh anótáil go leath-uathoibríoch ag úsáid na sonraí ón scanóir léasair. Cuimsíonn an bailiú sonraí seo cásanna athraitheacha tráchta, líon na lánaí, cuaire bóthair agus soilsiú, a chuimsíonn go leor de choinníollacha na héadála iomláine.Nasc
CVVideoLlamas gan mhaoirsiú, le Bosch, Stáit Aontaithe MheiriceáFeithicleachMarcáil Lána, LiDARAnótáladh tacar sonraí Llamas Neamh-mhaoirsithe trí léarscáileanna tiomána uathoibríocha ardghléine a ghiniúint, lena n-áirítear marcóirí lána bunaithe ar Lidar. Is féidir an fheithicil uathrialach a ailíniú leis na léarscáileanna seo agus teilgtear na marcálacha lána i bhfráma an cheamara. Déantar an teilgean 3D a bharrfheabhsú tríd an neamhréiteach idir marcóirí íomhá a breathnaíodh cheana agus a bhfuiltear ag súil leo a íoslaghdú.Nasc
NLPFuaimeLibriSpeech Ilteangach Facebook AI (MLS)Go ginearáltaAnótáil Fuaime / Aitheantas UrlabhraIs tacar sonraí foinse oscailte ar scála mór é Facebook AI Multilingual LibriSpeech (MLS) atá deartha chun cabhrú le taighde ar aithint uathoibríoch cainte (ASR) a chur chun cinn. Soláthraíonn MLS níos mó ná 50,000 uair an chloig fuaime thar 8 dteanga: Béarla, Gearmáinis, Ollainnis, Fraincis, Spáinnis, Iodáilis, Portaingéilis agus Polainnis. Nasc