I've read reports stating that it was hit by both/a mixture. Ultimately what hit them isn't that important.
IDe
Tiesin että sieltä on tulossa paskaa, mutta en kyllä odottanut näin paljoa. Ei ihme että Orpolla oli niin kova tarve välttää sinipunahallitus.
Öh, mää en nyt seuraa. En tajuu miksi tää vaatis
Koska itse käytit kirjastojärjestelmää hyvänä, toimivana esimerkkinä, kun puhuttiin globaalista kaiken datan lisessoinnista avoimeen AI kehitykseen.
Ja miten susta ois parempi se et muusikot ei sais mitään
Vaihtoehdot eivät ole nykyinen tai ei mitään. Ja itse toit musiikkilisesoinnin tähän. Itse en näe kaupallista musiikintuottamista ja random nettiin kirjoittelua mitenkään rinnasteisina.
Pointti oli osoittaa kuinka esimerkkinä antamasi lisenssijärjestelmät ovat raskaita/huonoja ja tukahdutavia, ja kuinka niiden "kauhukuvat" ovat pitkälti todellisuutta. Sanoit itsekin että samantapainen systeemi (olet pakotettu ostamaan kalliit oikeudet monikansalliselta oikeuksien haltijalta) pitäisi olla yleisesti datan kanssa.
Häh, jos selaat tommosella esim. githubii
Suurin osa datasta netissä ei sisällä määrämuotoista lisenssiä. Suuria kielimalleja kehitetään myös moneen muuhun asiaan kuin vain koodin generointiin. Nyt puhutaan siitä kuinka mielestäsi kaiken datan tulisi vaatia lisenssin, jotta sitä saa käyttää edes välillisesti mihinkään. Tämä tappaisivat yllämainitun tapaiset projektit, kun ne joutuvat pyytämään luvan muutamalta biljoonalta lisenssinhaltijalta. Vai oliko tässä idea että koodaajat ovat jotenkin erityisoikeutettuja omaan tuotokseensa muihin tekstin tuottajiin verrattuna?
Jos ei nyt veettäis mutkia suoriksi
Pointti oli kuinka teknologiaa heikosti ymmärtävät maallikot ajavat sääntelyä, jonka todellisia vaikutuksia ja haittoja he eivät ymmärrä.
sillä niiden puolustaminen johtaa avosorsakehityksen kuolemiseen
Tässä menee softakehitys ja koneoppimismallienkehitys (=tekoäly/AI) sekaisin. Puhun juurikin avoimesta koneoppimismallien kehityksestä avoimella datalla, joka tulee tukahtumaan jos jokainen tekstinpätkä tms. pitää lisensoida ja siitä maksaa rojalteja. Eli siis tuo mitä aiemmin kirjoitit:
Pitäis olla joku ratkaisu, et jos sun tekeleitä käytetään jonkun AI:n harjoitusdatana, eikä lisenssiä pystytä/haluta noudattaa, niin sulle kuuluu rojaltit siitä harjoitusdatasetin käytöstä.
Ylipäätään idea että jos jonkun harrastelijakoodarin viikonloppuprokkiksesta päätyy neljäsosabittiä informaatiota jonkun kielimallin painokertoimiin, niin siitä pitäisi saada rojalteja on naurettava. Vielä naurettavampi, jos sen vuoksi vaaditaan tekoälykehityksen tukahduttamista ja kansainvälisen lisensointijärjestelmän pystytystä.
Eipä kirjastot oo kaatanu kirjoja tai striimaus musiikkiakaa
Kuvittele jos meillä olisi kansallisen kirjastojärjestelmän kokoinen pulju ihan vaan jotta saat luoda avointa softaa. Ja musiikin lisesointi on juuri kuvaamani monopolihirvitys, jossa artisteja ja kuuntelijoita riistetään ja isot toimijat vetävät rahat välistä. Ei ihme että suuretkin ammattimuusikot joutuvat tienaamaan elantonsa lähinnä keikkailemalla.
Ja siis, eihän tää estä mitenkään avoimien datasettien luomista.
Kuvaile toki miten esim. Common Crawlin tapainen yleishyöhyllinen ja avoin datasetti -projekti voisi toimia, jos jokainen tekstin pätkä vaatisi lisenssitiedoston. Reddit yms. voi aina heittää TOS:in pätkän, jossa annat luvan datan käyttöön. Tuollainen lisenssihelvetti käytännössä tuhoaisi vain kaiken avoimen ja vapaan kehityksen.
Tämän ajaminen menee käytännössä samaan luokkaan salauksen kieltämisen / sääntelyn kanssa.
Pitäis olla joku ratkaisu, et jos sun tekeleitä käytetään jonkun AI:n harjoitusdatana, eikä lisenssiä pystytä/haluta noudattaa, niin sulle kuuluu rojaltit siitä harjoitusdatasetin käytöstä.
Tässä vaan käy helposti niin että tuo kaatuu mahdottomuuteensa ja koko teknologian kehitys tyssää. Vaihtoehtoisesti vain isoilla pelaajilla on varaa luoda datasettejä ja nykyiset avoimet AI kehitys-/datan haalimisprojektit kuolee.
Tämä on juuri sellainen sääntelijän kaappaus mitä isot toimijat toivovat. Googlella/Microsoftilla tms. ei data tule koskaan loppumaan. Heidän suurin uhkansa on että joku avoimen lähdekoodin jamppa muutamalla näyttiksellä rikkoo monopolin tekemällä avoimen kopion heidän ylihintaisesta API:staan. Algoritmit/menetelmät itsessään kun ovat jo täysin avoimia.
Tätä on odotettu 11 kuukautta 😎
Luulisi että näillä hinnoilla alkaisi asiakkaat valitsemaan oikeita ravintolahampurilaisia, mutta kai tuon on pakko kannattaa kun kerta hintoja pystyvät noin nostamaan.
Oh boy, you're going to be in for a disappointment
Twitter probably opened the floodgates when they managed to shaft users and cut API access without outright killing themselves. Now everyone else is emboldened to ask "why can't we do that too?".
Most of the data used in training GPT4 has been gathered through open initiatives like Wikipedia and CommonCrawl. Both are freely accessible by anyone. As for building datasets and models, there are many non-profits like LAION and EleutherAI involved that release their models for free for others to iterate on.
While actually running the larger models at a reasonable scale will always require expensive computational resources, you really only need to do the expensive base model training once. So the cost is not nearly as expensive as one might first think.
Any headstart OpenAI may have gotten is quickly diminishing, and it's not like they actually have any super secret sauce behind the scenes. The situation is nowhere as bleak as you make it sound.
Fighting against the use of publicly accessible data is ultimately as self-sabotaging ludditism as fighting against encryption.
The features themselves are very useful for basically any user. Whether they are worth the non-standardness and issues that come with it is another question.