uprmthr

@upromthdr

THE WORLD IS FUCKING FUCKED UP

Joined December 2023

2.2K Following

94 Followers

16.6K Posts

Pinned Tweet

uprmthr @upromthdr

over 2 years ago

「政治正確」本質是什麼？是人類試圖通過絕對擁護某些簡單的政治教條來處理複雜現實的本能。哪裡的人有足夠的智識修為來抑制住這種本能，哪裡的人便能免受「政治正確」之害。進入現代社會的門檻之一，就是抑制住腦子的「野人」。它曾經幫助過人類挺過自然選擇閘刀，但它也是現代人的智識上的原罪。

upromthdr retweeted

Tom Dörr

@tom_doerr

about 15 hours ago

Generates professional LaTeX resumes without coding https://t.co/nJrG9tn4V9

upromthdr retweeted

Arip

@machinestein

about 7 hours ago

ICML 2026: Latent Reasoning in TRMs is Secretly a Policy Improvement Operator Why does recursive reasoning, especially latent reasoning, actually work? The theory is still young, and even mechanistic explanations are limited. We close part of this gap by showing that latent reasoning is secretly doing policy improvement. Each recursion pushes the model steadily toward the target. Based on this view, we propose an algorithm that boosts learning and inference efficiency by up to 18x.

194

207

11K

upromthdr retweeted

日本大和農場（筹建申请中）

@DAIWA7777777

about 11 hours ago

中国共产党花巨资建成的防火墙在下月亦将失效 🔥🔥🔥🔥🔥🔥🔥 美国国务院为了言论自由的目的，正在制作一个叫 https://t.co/wmLzxILOpd 的美国 VPN 网站 ㅋㅋㅋㅋㅋ 这里一连上就立刻变成美国 IP 7 月份即使用正通网法封口也没用是永久免费。这是政府推动的“数字自由”项目，不是商业服务，目标是帮助受审查地区用户（如欧洲、中国等地）绕过封锁。官方定位为公共外交工具，不会收费。 https://t.co/E0svSOHiir

DAIWA7777777's tweet photo. 中国共产党花巨资建成的
防火墙在下月亦将失效
🔥🔥🔥🔥🔥🔥🔥

美国国务院为了言论自由的目的，正在制作一个叫 https://t.co/wmLzxILOpd 的美国 VPN 网站 ㅋㅋㅋㅋㅋ

这里一连上就立刻变成美国 IP

7 月份即使用正通网法封口也没用

是永久免费。这是政府推动的“数字自由”项目，不是商业服务，目标是帮助受审查地区用户（如欧洲、中国等地）绕过封锁。官方定位为公共外交工具，不会收费。 https://t.co/E0svSOHiir

765

165

556

104K

upromthdr retweeted

Vivek Galatage

@vivekgalatage

about 19 hours ago

SQLite: How it works by Richard Hipp (2024) It's so good to hear about the internals from the creator himself. https://t.co/AS7NNmsY9z

vivekgalatage's tweet photo. SQLite: How it works by Richard Hipp (2024)

It's so good to hear about the internals from the creator himself.

https://t.co/AS7NNmsY9z https://t.co/0MrYGvdz6A

19K

upromthdr retweeted

Probability and Statistics

@probnstat

about 5 hours ago

Direct Preference Optimization (DPO) is a recent breakthrough in AI alignment that provides a simple alternative to Reinforcement Learning from Human Feedback (RLHF). Instead of first training a reward model and then optimizing a policy with reinforcement learning, DPO directly learns from pairs of human preferences—for example, a preferred response and a rejected one. This eliminates the need for a separate reward model while retaining the ability to align models with human judgments. Mathematically, DPO can be viewed as optimizing a classification objective derived from a constrained reinforcement learning problem, linking preference learning with probabilistic inference. The method updates the policy to increase the likelihood of preferred outputs while decreasing the likelihood of less desirable ones. In machine learning, DPO offers an efficient framework for learning from comparative feedback rather than explicit labels. In deep learning, it has become a key technique for aligning large language models, improving helpfulness, safety, and instruction-following behavior. In reinforcement learning, DPO provides a bridge between supervised learning and policy optimization, replacing complex RL pipelines with a more stable optimization objective. The broader insight is that many real-world tasks are easier to express through preferences than absolute rewards. By learning directly from comparisons, Direct Preference Optimization offers a scalable and mathematically elegant framework for training the next generation of aligned AI systems. Image: https://t.co/9Ync1ZHNKq

probnstat's tweet photo. Direct Preference Optimization (DPO) is a recent breakthrough in AI alignment that provides a simple alternative to Reinforcement Learning from Human Feedback (RLHF). Instead of first training a reward model and then optimizing a policy with reinforcement learning, DPO directly learns from pairs of human preferences—for example, a preferred response and a rejected one. This eliminates the need for a separate reward model while retaining the ability to align models with human judgments.

Mathematically, DPO can be viewed as optimizing a classification objective derived from a constrained reinforcement learning problem, linking preference learning with probabilistic inference. The method updates the policy to increase the likelihood of preferred outputs while decreasing the likelihood of less desirable ones.

In machine learning, DPO offers an efficient framework for learning from comparative feedback rather than explicit labels. In deep learning, it has become a key technique for aligning large language models, improving helpfulness, safety, and instruction-following behavior. In reinforcement learning, DPO provides a bridge between supervised learning and policy optimization, replacing complex RL pipelines with a more stable optimization objective.

The broader insight is that many real-world tasks are easier to express through preferences than absolute rewards. By learning directly from comparisons, Direct Preference Optimization offers a scalable and mathematically elegant framework for training the next generation of aligned AI systems.

Image: https://t.co/9Ync1ZHNKq

upromthdr retweeted

Xudong Han

@Xudong07452910

about 18 hours ago

MIT、斯坦福大学等顶尖高校联合发表的一篇论文指出：AI 可以让人「感觉」自己变得高效，但实际上效率提升可能非常有限。论文做了 3 个预注册研究，2691 名参与者参与。结果发现，人们会比自己预想中更频繁地使用 AI，尤其是在算术、拼写、简单回忆、短文本改写这类基础任务上。最有意思的数据是：大家平均预期 AI 能节省 55.7 秒，但实际只节省了 7.5 秒。对于简单任务，隐藏成本反而很明显：写 prompt、等待回复、阅读答案、检查结果、判断能不能用。更值得注意的是反馈循环：一旦前面用了 AI，后面继续用 AI 的概率也会上升。也就是说，AI 依赖不一定来自真实效率提升，也可能来自一种「感觉很方便」的错觉。我觉得这篇最值得反思的地方在于： AI 会改变我们对「什么时候该自己动手」的判断。今天问 AI 一个很简单的问题，不会让人明天就失去能力；但长期下来，我们可能会慢慢低估自己的直接判断力，高估 AI 介入的必要性。 https://t.co/XLIHvdQh64

Xudong07452910's tweet photo. MIT、斯坦福大学等顶尖高校联合发表的一篇论文指出：AI 可以让人「感觉」自己变得高效，但实际上效率提升可能非常有限。

论文做了 3 个预注册研究，2691 名参与者参与。结果发现，人们会比自己预想中更频繁地使用 AI，尤其是在算术、拼写、简单回忆、短文本改写这类基础任务上。

最有意思的数据是：大家平均预期 AI 能节省 55.7 秒，但实际只节省了 7.5 秒。对于简单任务，隐藏成本反而很明显：写 prompt、等待回复、阅读答案、检查结果、判断能不能用。

更值得注意的是反馈循环：一旦前面用了 AI，后面继续用 AI 的概率也会上升。也就是说，AI 依赖不一定来自真实效率提升，也可能来自一种「感觉很方便」的错觉。

我觉得这篇最值得反思的地方在于：

AI 会改变我们对「什么时候该自己动手」的判断。

今天问 AI 一个很简单的问题，不会让人明天就失去能力；但长期下来，我们可能会慢慢低估自己的直接判断力，高估 AI 介入的必要性。

https://t.co/XLIHvdQh64

upromthdr retweeted

灰狐

@huihoo

4 months ago

数学、物理学、计算机科学，课程视频汇总资源这里收集整理的可能是全网最全的三大科学资源斯坦福、耶鲁、麻省理工、加州伯克利 ... 几十所名校数学、物理学、科学课程大汇总总计数百门课程，数千个视频讲座每门课都有10几-几十个不等的视频（海量）你可以学习到：数学物理、经典力学、量子力学、狭义相对论电磁学广义相对论宇宙学、统计力学、高级量子力学弦理论、计算物理、希格斯玻色子、量子纠缠粒子物理学 1：基本概念 2：标准模型粒子物理学 3：超对称性与大统一理论天文学、天体物理学、宇宙学、黑洞微积分、线性代数、概率与统计 ... https://t.co/dT2nLIAAC5 另一个更受欢迎更加海量的汇总资源：计算机科学也是各大名校课程，也一并推荐给你，这样数学、物理学、计算机科学，齐了 https://t.co/K51DKgnXzM 反正是看不完学不完，那就先收藏着

429

130

504

28K

upromthdr retweeted

鸟哥 | 蓝鸟会🕊️

@NFTCPS

about 9 hours ago

天天喊着搞AI，结果你连Transformer是个啥都说不清？有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链都有： 1️⃣ 数据下载、预处理、训练、生成一条龙 2️⃣ 训练数据用The Pile，22个来源825GB 3️⃣ tiktoken分词，存HDF5 4️⃣ 预训练之后还给SFT和RLHF的路子改几个配置就能调大小。13M参数左右就开始拼对语法和单词，白嫖Colab或Kaggle的T4，练一天就出活。想真懂原理、不想当调包侠，从这儿入门最干净。 https://t.co/0nK1iONY82

NFTCPS's tweet photo. 天天喊着搞AI，结果你连Transformer是个啥都说不清？

有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链都有：

1️⃣ 数据下载、预处理、训练、生成一条龙
2️⃣ 训练数据用The Pile，22个来源825GB
3️⃣ tiktoken分词，存HDF5
4️⃣ 预训练之后还给SFT和RLHF的路子

改几个配置就能调大小。13M参数左右就开始拼对语法和单词，白嫖Colab或Kaggle的T4，练一天就出活。

想真懂原理、不想当调包侠，从这儿入门最干净。

https://t.co/0nK1iONY82

upromthdr retweeted

Kirk Borne

@KirkDBorne

1 day ago

100 Great Problems of Elementary Mathematics "The collection, drawn from arithmetic, algebra, pure and algebraic geometry and astronomy, is extraordinarily interesting and attractive." —Mathematical Gazette Get it here: https://t.co/Q11yhy5HlX

KirkDBorne's tweet photo. 100 Great Problems of Elementary Mathematics

"The collection, drawn from arithmetic, algebra, pure and algebraic geometry and astronomy, is extraordinarily interesting and attractive."
—Mathematical Gazette

Get it here: https://t.co/Q11yhy5HlX https://t.co/f2erkUshRQ

132

upromthdr retweeted

徒步的骑手

@CaminoTexas

1 day ago

几年前，河南很多储户的钱被银行弄没了。他们打着毛像五星旗去要钱，说是“维权”。人怎么能维护自己没有的东西呢？权利这个东西，跟朋友一样，不可能到了有用的时候才去交。有着谁了，再去跟人交朋友，这种人永远不会有朋友。权利的道理一样——用着权利了才知道去“利用”一下，这种人永远不可能有权利。比这更早一点，河南发大水，外国记者去报道，差点被那里的群众打了。连人都是国家的——言行都表现出来他们相信自己是国家的，外国人报道一下自然灾害都是亡他们之心不死——国家要讲大局，这不是他们自己相信的么？跟国家大局相比，他们自己那点钱算个球。记得当时我做了个评论：“看那些个人，可怜不可怜？可怜。看那个人群，值得不值得同情？不值得”。有人复述鲁迅的话：“哀其不幸，怒其不争”。这有点多情了。凭那个人群的言论和行为，现在这种状况已经算是够幸的了，有什么好哀的？至于怒，更无从谈起——平日他们不但自己不争，而且为了一点小利转身就把为他们争权利的人卖掉。他们让银行骗点钱，要不回来，靠本能上街闹闹，有什么好怒的呢？这些年，年纪越来越大，越喜欢孔子的一些说法。求仁得仁，求锤得锤，有何怨乎？

CaminoTexas's tweet photo. 几年前，河南很多储户的钱被银行弄没了。他们打着毛像五星旗去要钱，说是“维权”。人怎么能维护自己没有的东西呢？权利这个东西，跟朋友一样，不可能到了有用的时候才去交。有着谁了，再去跟人交朋友，这种人永远不会有朋友。权利的道理一样——用着权利了才知道去“利用”一下，这种人永远不可能有权利。比这更早一点，河南发大水，外国记者去报道，差点被那里的群众打了。连人都是国家的——言行都表现出来他们相信自己是国家的，外国人报道一下自然灾害都是亡他们之心不死——国家要讲大局，这不是他们自己相信的么？跟国家大局相比，他们自己那点钱算个球。

记得当时我做了个评论：“看那些个人，可怜不可怜？可怜。看那个人群，值得不值得同情？不值得”。有人复述鲁迅的话：“哀其不幸，怒其不争”。这有点多情了。凭那个人群的言论和行为，现在这种状况已经算是够幸的了，有什么好哀的？至于怒，更无从谈起——平日他们不但自己不争，而且为了一点小利转身就把为他们争权利的人卖掉。他们让银行骗点钱，要不回来，靠本能上街闹闹，有什么好怒的呢？

这些年，年纪越来越大，越喜欢孔子的一些说法。求仁得仁，求锤得锤，有何怨乎？

111

upromthdr retweeted

Vaishnavi

@_vmlops

about 18 hours ago

Deep Learning Foundations, Architectures & Engineering Practice https://t.co/J9nRDmDMmv

413

442

13K

upromthdr retweeted

Phoenix Yin

@Phoenixyin13

1 day ago

如果你想了解Transformer架构的硬伤，这篇今年4月的论文非常有洞见且及时。这篇论文的核心吐槽就是，Transformer，即现在主流AI用的那种架构在长期记住和更新动态状态上天生有局限。它就像一个超级聪明的一次性扫描器，每次看到一长串文字，就从头到尾扫一遍，找出关联。但是，它并不擅长持续跟踪evolving state。这次，论文用拓扑这种几何结构的数学角度证明，Transformer把状态越推越深，深度用完了就卡住了。这是结构性的硬伤。如果你在搞AI Agent，或者像我一样天天做Suno音乐生成，或者未来想做Music Tech，这篇指的方向很好。未来好用的AI需要混入循环、recurrent机制，比如Mamba、RWKV，或者Transformer与循环的混合体。 2026年AI scaling下，这更像在为post-Transformer时代铺路。 OpenAI，Anthropic可能已在内部探索。为什么o1-style reasoning有效但贵已经在论文有所解答，同时，论文也预示着未来高效long-context不只靠更大KV cache，架构创新也是非常重要的一环。作为AI交叉背景的同学，这能帮我更好理解Human-AI Interaction中state tracking的cognitive modeling问题。读完这篇论文之后，科研上，我会优先看recurrent axis强的模型，比如Mamba、RWKV、looped transformers、coarse SSM。训练时，可以探索下multi-stage，先feedforward pretrain，再加recurrence fine-tune来解决效率问题。

665

124

701

72K

upromthdr retweeted

Tech Educator

@tech_educator

1 day ago

Theoretical Foundations of Deep Learning Detailed Explanation: https://t.co/3PESPHfMWg

594

539

20K

upromthdr retweeted

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）

@lidangzzz

2 days ago

首先生物依然是个大坑，不认可这一点的都是打嘴炮，其次西瓜书是个什么垃圾，这种书从来比不上deep learning、PRML、BRML这些经典教材，任何本科生都不应该去看西瓜书，然后刷算法和数据结构居然被你认为不重要，不应该读，不应该把经典算法手敲一遍——这已经愚蠢到家了，我已经懒得反驳了。

49K

upromthdr retweeted

Phoenix Yin

@Phoenixyin13

1 day ago

任何一个学科，靠近数学与物理的程度越高，它的高级感和硬核度就越高。凡是还需要大量靠摇瓶子、靠经验主义、靠玄学运气来堆实验结果的学科，在纯粹的数学与物理的信徒眼里，都还没有进化到科学的最高形态。在数理领域，存在着智商一票否决制。一个数学难题，你智商不够，给你100年你也解不出来，努力在绝对的天赋面前一文不值。但在化生（特别是生物）领域，很多时候拼的是科研民工的耐力和运气。每天在实验室里养细胞、跑电泳、喂小白鼠。只要你足够勤奋，哪怕智商不是顶尖，靠着日复一日重复机械的操作，去穷举那千分之一的成功概率，或者学会如何水文章，你也能砸出成果、拿到博士学位。所以化生的成功路径里，体力与耐力的堆砌占比太高，掩盖了纯粹智力的光芒。有些事情，之所以是智商的试金石，是因为它们不允许任何模糊。 1毫米的逻辑断层，整个理论大厦就会坍塌。

Phoenixyin13's tweet photo. 任何一个学科，靠近数学与物理的程度越高，它的高级感和硬核度就越高。

凡是还需要大量靠摇瓶子、靠经验主义、靠玄学运气来堆实验结果的学科，在纯粹的数学与物理的信徒眼里，都还没有进化到科学的最高形态。

在数理领域，存在着智商一票否决制。

一个数学难题，你智商不够，给你100年你也解不出来，努力在绝对的天赋面前一文不值。

但在化生（特别是生物）领域，很多时候拼的是科研民工的耐力和运气。

每天在实验室里养细胞、跑电泳、喂小白鼠。
只要你足够勤奋，哪怕智商不是顶尖，靠着日复一日重复机械的操作，去穷举那千分之一的成功概率，或者学会如何水文章，你也能砸出成果、拿到博士学位。

所以化生的成功路径里，体力与耐力的堆砌占比太高，掩盖了纯粹智力的光芒。

有些事情，之所以是智商的试金石，是因为它们不允许任何模糊。
1毫米的逻辑断层，整个理论大厦就会坍塌。

upromthdr retweeted

枫原万葉

@46ge5

1 day ago

一句话概括几乎所有 “AI + 传统学科”的 paper：所有需要决策的地方都可以用 AI 做决策，即使不创造新算法，也可以把传统经验直接用神经网络拟合常见关键词/标题包装：Neural [传统方法] for [传统领域]、E2E Differentiable [传统方法]、Data-Driven NN for [传统领域]、Learning-Based [传统方法]

upromthdr retweeted

老金

@freeman1266

1 day ago

不懂数学，也能看懂大多数 AI 论文——只要理解这条链路： token → embedding → 位置编码 → attention → FFN → 残差流 → next-token prediction LLM 本质上是把 Transformer block 一层层堆起来。每次生成，都在问同一个问题：基于目前所有上下文，下一个最合理的 token 是什么？几个关键概念： Token：LLM 不读文字，只读整数 ID。"strawberry" 有几个 r，模型数不清——不是蠢，是因为它按 token 处理，不按字母。 Embedding：每个 token 被映射成 4096 维向量。不是人工标签，是训练出来的「语义坐标」 Attention：每个 token 在问：上下文里谁的信息最该被我吸收？Query 提问，Key 被匹配，Value 提供内容。 FFN：Attention 负责信息搬运，FFN 负责信息加工——模型的「知识仓库」大量存在这里。残差流：每层不是推翻重写，而是在原有理解上「补一笔」，信息累积向前流动。 Next-token prediction：最终输出不是一句话，而是一张候选榜。temperature 控制冒险程度，top-p 控制候选范围。理解这条链路，那些「灵异现象」——为什么 prompt 没问题模型还是出错、为什么上下文越长越贵——都有了解释。

upromthdr retweeted

大帅老猿

@ezshine

1 day ago

老婆回国了，让我给她弄个梯子，本来想省事买个几块钱的，结果发现一个开源项目可以把网络大善人CF的全球成千上万的边缘节点用来翻墙，ip 随心所欲换地儿，一分钱都不用花，速度还贼拉快，部署极其简单，拢共 2 步，这你受得了吗？

309

151

351K

upromthdr retweeted

Yacine Mahdid

@yacinelearning

2 days ago

one of the most important element of a good algorithmic research paper is a very colourful and simple to understand diagram of said algorithm

yacinelearning's tweet photo. one of the most important element of a good algorithmic research paper is a very colourful and simple to understand diagram of said algorithm https://t.co/tcl2YrPbvC

565

286

35K

upromthdr retweeted

Phoenix Yin

@Phoenixyin13

1 day ago

今天，彻底教会你在AI时代如何高效高质量地阅读一篇论文。 S. Keshav 的这篇《How to Read a Paper》确实是学术界大浪淘沙留下来的经典，直接三步法解决问题。可以对照一下，你平时是不是这样读论文：第一遍，漏斗。 AI 负责把 50 页的噪音压缩成 5 分钟的信号，但决定要不要把这篇文章放进你大脑内存的，依然是人类的直觉与选题品味。第二遍，脚手架。 AI 负责解释复杂的公式和跨学科的背景，降低认知负荷，让你能心无旁骛地去审视核心逻辑和图表。第三遍，对抗训练。把 AI 当成一个免费、全天候且极其刻薄的审稿人，通过多轮 Prompt 轰炸，逼着自己去寻找论文的破绽。小时候爱看《倚天屠龙记》，我个人喜欢把科研比作乾坤大挪移。AI 就像是一把绝世神兵，它能让你出招快上百倍，但如果没有 Keshav 这种底层的九阳神功的内功心法支撑，新人极易走火入魔。拉开科研天花板的，恰恰是那些 AI 无法替代的品味与怀疑。在几年前我在浙大科研的时候，教授跟我吃饭的时候说，他在带本科生的过程中，会发现一个有趣的悖论：工具越先进，制造学术幻觉就越容易。过去，一个学生如果没读懂论文，他交上来的报告会是混乱、生硬的。而现在，借助大语言模型，他可以轻松交出一份结构严整、用词高级、看起来挑不出毛病的完美总结。但，这就像吃了一颗精致的糖衣炮弹，剥开外面那层 AI 生成的漂亮皮囊，里面对研究局限性的洞察、对 baseline 漏洞的直觉，往往是一片空白。因此，在 AI 时代的科研训练里，要教给新人的第二步，是主动破壁。看第二遍和第三遍时，不要只看作者说“我们提升了 10%”这种话，我们要让 AI 帮你把它的实验环境、控制变量和消融实验的逻辑框架抽象出来。闭上眼睛想一想：如果我是作者，在面对同样的数据集和硬件限制时，我会怎么设计这个 Baseline？为什么作者漏掉了那个显而易见的对照组？是出于客观限制，还是在有意回避？总之，永远不要问 AI： “这篇文章好在哪里？” 这很愚蠢，而且无法找到重点。结合在浙大的学习经历，我习惯把 AI 推到你的对立面，让它用最严苛的学术标准去帮你做压力测试。能见招拆招，把 AI 提出的质疑。在原文中找到答案或反驳依据时，你才真正完成了 Keshav 所说的 Third Pass。百川归海，每一篇发表出来的顶会或顶刊论文，都只是作者成功的那 5%。剩下 95% 的失败尝试、调参的痛苦、被拒稿后的妥协，都隐藏在字里行间。科研的工具在变，范式在变，从手抄文献到 Google Scholar，再到如今的 ChatPDF 和 Agent 矩阵。但精髓从未改变。科研是关于提问的艺术，而非关于回答的重复。 AI时代，希望大家把省下来的心智带宽，留给最纯粹的怀疑、最天马行空的猜想，以及对真理最固执的求证。这或许，才是每个科研新人，在这场万法归宗的旅程中，最该握紧的罗盘。

206

194

16K

uprmthr

@upromthdr

Last Seen Users on Sotwe

Trends for you

Most Popular Users