Dirbtinio intelekto ir mašinų mokymosi metu aukštos kokybės duomenų rinkiniai vaidina lemiamą vaidmenį kuriant tikslius ir patikimus modelius. Tačiau rinkimas išsamius, patikrintus duomenis, ypač specializuotose srityse, tokiose kaip matematika, kodavimas ir mokslas, yra iššūkis. Tradiciniai duomenų rinkimo metodai dažnai nesugeba sukurti duomenų rinkinių, kurie veiksmingai mokytų modelius sudėtingoms samprotavimo užduotims. Šis spraga pabrėžia naujų duomenų rinkinio kūrimo ir patikrinimo būdų poreikį.
„Prime Intelektas“ pristatė „Synthetic-1“-atvirojo kodo duomenų rinkinį, skirtą patikrintiems matematikos, kodavimo ir mokslo pagrindimo požiūriams pateikti. Sukurtas palaikant „Deepseek-R1“, šį duomenų rinkinį sudaro 1,4 mln. Struktūrizuotų užduočių ir tikrintojų. Sintetinio-1 tikslas yra patobulinti samprotavimo modelius, pateikiant jiems gerai organizuotus, patikimus duomenis, nagrinėjant esamų išteklių trūkumus.
Sintetinis-1 apima daugybę užduočių, kurių kiekvienas yra skirtas užtikrinti kokybę ir aktualumą:
- 777 000 matematikos problemos, susijusios su simboliniais tikrintuvais: Šios problemos, gautos iš „Numinamath“ duomenų rinkinio, sutelkia dėmesį į vidurinės mokyklos varžybų lygio klausimus. LLM pagrįstas filtravimo procesas pašalina neišvengiamas problemas, tokias kaip reikalaujantys įrodymų, ir suformuluoja klausimus su atsakymų variantais į tiesioginio atsakymo formatus.
- 144 000 kodavimo problemų su vieneto testais: Ištraukta iš duomenų rinkinių, tokių kaip „Apps“, „CodeContests“, „Codeforces“ ir „Taco“, šios problemos pateikiamos su vienetų testais, kad būtų galima patikrinti sprendimus. Iš pradžių duomenų rinkinyje buvo „Python“ problemos, kurios vėliau buvo išplėstos įtraukiant „JavaScript“, „Rust“ ir „C ++“, padidinant iššūkių įvairovę ir gylį.
- 313 000 atvirų STEM klausimų su LLM vertinimu: Naudodamas „Stackexchange“ duomenų rinkinį, šis pogrupis apima platų techninių ir mokslinių temų spektrą. Atrankos procese teikiami prioritetai klausimams, kuriems reikalingi samprotavimai, o ne paprastas informacijos gavimas. LLM teisėjas surinko atsakymus pagal jų suderinimą su aukščiausio lygio bendruomenės atsakymais.
- 70 000 realaus pasaulio programinės įrangos inžinerijos užduotys: Šios užduotys, nupieštos iš „GitHub“, įsipareigoja „Commitepack“ duomenų rinkinyje, apima kodo failų modifikavimą, pagrįstą įsipareigojimo instrukcijomis. LLM teisėjas įvertina sprendimus palygindamas juos su faktinėmis pakomitečio kodų valstybėmis.
- 61 000 kodo išvesties numatymo užduotys: Šis pogrupis sutelkė dėmesį į kodo transformacijų išvestį, šis pogrupis meta modelius su vis sudėtingesnėmis manipuliavimo stygomis užduotis. Šios problemos yra ypač sunkios šiuolaikiniams AI modeliams.

Dėl struktūrizuoto sintetinio-1 pobūdžio jis yra vertingas šaltinis treniruočių modeliams struktūrizuotiems samprotavimams. Įtraukdamas programiškai patikrinamas problemas, tokias kaip kodavimo užduotys su vienetų testais, duomenų rinkinys užtikrina aiškius teisingumo kriterijus. Be to, LLM teisėjų patikrinta neterminuotų samprotavimų klausimai kelia iššūkius, kurie nukreipia dabartinių AI galimybių ribas. Duomenų rinkinio bendradarbiavimo sistema taip pat leidžia nuolat tobulėti ir plėsti, skatinant bendras pastangas patobulinti AI mokymo išteklius.
„Synthetic-1“ yra žingsnis į priekį kuriant aukštos kokybės duomenų rinkinius, pagrįstus AI modeliais. Atkreipdamas dėmesį į esamų duomenų rinkinių spragas, jis suteikia struktūrizuotą pagrindą, kaip pagerinti matematikos, kodavimo ir mokslo mašinų pagrindimus. Projektas taip pat skatina nuolatinį įmoką, todėl tai tampa besikeičiančiu šaltiniu tyrėjams ir kūrėjams, dirbantiems siekiant padidinti AI galimybes struktūrizuotų problemų sprendimo srityje.
Patikrinkite Informacija ir duomenų rinkinys apie apkabinimo veidą. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (reklamuojama)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo