Joakim Wernberg

6 months ago

@RikardN @neo_andreas @SvDledare @roksschnittger @SvD Jag tror man måste vara väldigt explicit i vad man reglerar för att uppnå vad och hur. Om ngt är entydigt dåligt kan man få en sådan signal (jmfr om säkerhetsbälte o tobak i avsnittet), men ”sociala medier” uppfyller inte de kraven om tydlighet vilket påverkar mottagande också

1

0

26

6 months ago

@RikardN @SvDledare @neo_andreas @roksschnittger @SvD Jag menar att om problmet är att barn (under 16 el 13) är på dessa plattformar så är det redan idag utfall av att man ljuger när man skapar användarkontot. Glappet mellan beteende och regelverk innebär att man normaliserat ljugandet, något som kan bli värre.

1

0

14

Svensk Linje — @_FMSF's anrika organ sedan 1942.

about 1 year ago

Sverige riskerar att fastna i en jobbförstörelsefälla, men inte för att AI tar alla jobb utan för att befintliga institutioner och politik hindrar framväxten av nya jobb. Om detta skriver jag och @drbergh på DN Debatt: https://t.co/8SASOO6ZzW

0

1

0

118

Who to follow

Svensk Linje

@svensklinje

Hanna Mattsson Wagenius

@hannawagenius

Bonnjänta. Centerpartist. Jurist. Taggar #matriarkatet, pannkakor och frihet. För övrigt anser jag att sommartiden bör förstöras.

Jonas Milton

@Almmilton

Senior Advisor, tidigare VD på Almega. Styrelseledamot i Caretia. . Tidigare styrelseledamot bl a i Karolinska institutet, Alecta, TRR, AI Pension m fl.

jolun retweeted

Fredrik Kopsch @FredrikKopsch

about 1 year ago

Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with. It keeps the same format as ARC-AGI-1, while significantly increasing the signal strength it provides about a system's actual fluid intelligence. Expect more novelty, less redundancy, and deeper levels of concept recombination. There's a lot more focus on probing abilities that are still missing from frontier reasoning systems, like on-the-fly symbol interpretation, multi-step compositional reasoning, and context-dependent rules. ARC-AGI-2 is fully human-calibrated. We tested these tasks with 400 people in live sessions, and we only kept tasks that could reliably be solved by multiple people. Each eval set (public, private, semi-private) has the exact same human difficulty – average people in our test sample achieve 60% with no prior training, and a panel of 10 people achieve 100%.

fchollet's tweet photo. Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.

It keeps the same format as ARC-AGI-1, while significantly increasing the signal strength it provides about a system's actual fluid intelligence. Expect more novelty, less redundancy, and deeper levels of concept recombination. There's a lot more focus on probing abilities that are still missing from frontier reasoning systems, like on-the-fly symbol interpretation, multi-step compositional reasoning, and context-dependent rules.

ARC-AGI-2 is fully human-calibrated. We tested these tasks with 400 people in live sessions, and we only kept tasks that could reliably be solved by multiple people. Each eval set (public, private, semi-private) has the exact same human difficulty – average people in our test sample achieve 60% with no prior training, and a panel of 10 people achieve 100%.

56

2K

314

575

213K

jolun retweeted

about 1 year ago

Alltid värt att lyssna på @drbergh och @jolun. Det senaste avsnittet extra så. Håller med i rekommendation att politiker bör sluta sola sig i glansen från riskfyllda startups. https://t.co/HHwwXBDq4A

1

7

1

0

620

Timbro förlag @timbroforlag

about 1 year ago

Finns det en övergripande ideologi i Silicon Valley och är den i så fall mer libertariansk eller teknokratisk? Och vad spelar det för roll för debatter om teknikens samhällspåverkan? Det diskuterar jag och @drbergh i senaste avsnittet av #berghwernberg. https://t.co/pHcGg1w9bo

0

113

jolun retweeted

over 1 year ago

Nämen, ett nytt avsnitt av Ideologipodden är ute! Med flera av författarna som skrivit i antologin "Kontinuitet och förändring: Essäer om spårbundenhet i samhället". @hallonsten @JohanssonHeino @IsakssonPar @jolun

1

2

3

0

780

Georgios Sideras @georgiossideras

over 1 year ago

Matnyttig och rolig överblick av forskningen om maskiner, människor och jobb, signerad SoeTechs och Ratios nya doktorand @georgiossideras ! Ser mycket fram emot att arbeta ihop kring dessa frågor!

over 1 year ago

Deepseeks senaste AI-genombrott gör avancerad teknik billigare än någonsin. Innebär det en våg av förlorade jobb – eller nya möjligheter? 🧵

georgiossideras's tweet photo. Deepseeks senaste AI-genombrott gör avancerad teknik billigare än någonsin. Innebär det en våg av förlorade jobb – eller nya möjligheter? 🧵 https://t.co/IYtGqSE0Tl

1

4

2

1

3K

0

4

1

0

308

jolun retweeted

Timbro förlag @timbroforlag

over 1 year ago

Kom till lunchsamtal hos oss den 27 februari! @hallonsten och Anna Persson, redaktörer av antologin "Kontinuitet & förändring: essäer om spårbundenhet i samhället" kommer prata med två andra som också skrivit i boken: @jolun och Elisabeth Lindberg https://t.co/BK3XuveiyG

0

2

0

300

over 1 year ago

Är Sverige hopplöst efter i AI-omställningen? Och är industripolitik mer OK om det handlar om AI? I senaste Bergh & Wernberg (med @drbergh ) diskuterar vi AI-kommissionens slutrapport och jag förklarar varför jag menar att svaret på båda frågorna är nej. https://t.co/0prLM8alxD

0

1

564

jolun retweeted

Andreas Bergh @drbergh

over 1 year ago

Hur går det när de duktiga ska avslöja att de coola har fel? I nya #berghwernberg pratar vi om Henrik Jönsson, Ny demokrati och amerikanska presidenter - med mera. Lyssna här: https://t.co/iZIt1W514a

1

8

1

0

985

over 1 year ago

I senaste avsnittet av Bergh och Wernberg pratar jag och @drbergh om varför coola debattörer med känslobaserade argument som har lite rätt återkommande klyver samhällsdebatten: https://t.co/wULCPuAsHJ

1

6

1

914

jolun retweeted

Greg Kamradt

@GregKamradt

over 1 year ago

We verified the o3 results for OpenAI on @arcprize My first thought when I saw the prompt they used to claim their score was... "That's it?" It was refreshing (impressive) to see the prompt be so simple "Find the common rule that maps an input grid to an output grid"

GregKamradt's tweet photo. We verified the o3 results for OpenAI on @arcprize

My first thought when I saw the prompt they used to claim their score was...

"That's it?"

It was refreshing (impressive) to see the prompt be so simple

"Find the common rule that maps an input grid to an output grid" https://t.co/awXk85tE2s

48

2K

127

503

721K

jolun retweeted

over 1 year ago

For those who didn't get it -- AlphaGo was a MCTS search process that made thousands of calls to two separate convnets in order to compute a single game move. Something like o1 pro is also, best we can tell, a search process making thousands of calls to multiple LLMs to output a single answer. Hence the 1:1 analogy here.

35

2K

119

726

239K

jolun retweeted

over 1 year ago

Deep learning did hit that wall, and the natural answer to get past it was deep learning plus search. AI research is about to enter its deep-learning guided program synthesis (or CoT synthesis) arc.

70

2K

173

619

204K

over 1 year ago

While OpenAI’s o3 ARC/AGI test scores certainly are impressive, I strongly recommend reading @fchollet ’s thread about how this relates to AGI, bottle necks and future expectations on AI:

over 1 year ago

Today OpenAI announced o3, its next-gen reasoning model. We've worked with OpenAI to test it on ARC-AGI, and we believe it represents a significant breakthrough in getting AI to adapt to novel tasks. It scores 75.7% on the semi-private eval in low-compute mode (for $20 per task in compute ) and 87.5% in high-compute mode (thousands of $ per task). It's very expensive, but it's not just brute -- these capabilities are new territory and they demand serious scientific attention.

fchollet's tweet photo. Today OpenAI announced o3, its next-gen reasoning model. We've worked with OpenAI to test it on ARC-AGI, and we believe it represents a significant breakthrough in getting AI to adapt to novel tasks.

It scores 75.7% on the semi-private eval in low-compute mode (for $20 per task in compute ) and 87.5% in high-compute mode (thousands of $ per task). It's very expensive, but it's not just brute -- these capabilities are new territory and they demand serious scientific attention.

202

9K

2K

3K

2M

0

1

0

194

over 1 year ago

Häftigt! Men läs inte bara rubriken utan kika även på Chollets tråd om hur detta förhåller sig till AGI.

Mathias Sundin @MathiasSundin

over 1 year ago

Today OpenAI announced o3, its next-gen reasoning model. We've worked with OpenAI to test it on ARC-AGI, and we believe it represents a significant breakthrough in getting AI to adapt to novel tasks. It scores 75.7% on the semi-private eval in low-compute mode (for $20 per task in compute ) and 87.5% in high-compute mode (thousands of $ per task). It's very expensive, but it's not just brute -- these capabilities are new territory and they demand serious scientific attention.

202

9K

2K

3K

2M

0

97

jolun retweeted

over 1 year ago

Jag och @jolun oense om en hel del, men på ett civiliserat sätt. 🙂

0

1

0

424