Home
Language
English
Türkçe
Bahasa Indonesia
About
Privacy Policy
Terms of Service
Pricing
Sign In
Download All
Share
qtmuniao
@qtmuniao
分布式系统、数据处理、数据库、存储、AI 系统 DDIA 逐章精读:
Beijing
Joined April 2023
131
Following
1.3K
Followers
166
Posts
qtmuniao
@qtmuniao
about 2 months ago
@lidangzzz
深得欧亨利小说精髓
qtmuniao
@qtmuniao
2 months ago
“小子何莫学夫《诗》?《诗》可以兴,可以观,可以群,可以怨;迩之事父,远之事君;多识于鸟兽草木之名” 学《诗经》,起于鸟兽草木,而远不止于此。vibe了一个小站收集了《诗经》中出现的 200+ 种鸟兽草木。时间仓促,多有谬误,欢迎来玩指出。 诗经物什:https://t.co/ZNWRGSFEgN
qtmuniao
@qtmuniao
5 months ago
Scaling Law 被描述为投入算力和模型能力间大体存在一个幂率关系,但争议点在于如何将这有限的算力分配给模型参数量(N)和训练数据量(D),以获得理论上的最佳模型性能。基本的实验方法都是做很多组对比实验,来看在给定算力(C)的约束下,最佳的 Loss 和 N、D 之间的关系 https://t.co/OlDEQlYNYP
qtmuniao
@qtmuniao
6 months ago
第二篇从读写取舍出发(是否随机读、是否原地写),为了支持并行访问,粗定了一下数据集在底层存储上的表型形式。随后,在读写之上,外扩一层,罗列了大模型训练中所需要的一些常见处理场景(可重入、打散、可视化),来感受下是如何使用数据集进行读写的。 https://t.co/WqHZtGRC1p
qtmuniao
@qtmuniao
7 months ago
在大模型基础架构缺少有效创新的情况下,将数据做的精细对于提升模型能力变的尤为重要,这有赖于有一套灵活完备的大规模、多模态的数据处理基建做支撑。 业界对于大模型推理的基建分享较多,但在数据处理基建成体系的分享相对较少。因此我会开一个系列,帮大家简单的搭建一个框架性的感性认知。
qtmuniao
@qtmuniao
7 months ago
第一篇主要聊了大规模上数据处理中最基本的抽象单元——数据集。 首先引出数据的概念,然后数据集的底层存储开始,向上开盒看数据集的组织,再向上看数据集的管理,最后落到“开放式地数据库”理念上。这正对应了,在大模型训练中如何使用数据集的未被如何规约的现状。 https://t.co/NyQaivQA9Q
qtmuniao
@qtmuniao
6 months ago
@silsrc
@LaiskyCai
看起来你要给他设计好方案,列出 TODO 项和修改的边界,完全让他 automatic 似乎不太行,估计找不到重点。
qtmuniao
@qtmuniao
7 months ago
@jiadana2520
@oran_ge
好奇这个转变是怎么完成的?
qtmuniao
@qtmuniao
7 months ago
为将 《DDIA 逐章精读 https://t.co/NJ3J16RNIS》 转化为好看的 pdf,使用 codex 写了个 md 渲染 pdf 和 epub 的 python 小脚本(市面上 js 的比较多)https://t.co/kZVIVsTZ1G : - 封面 - 字体、大小、颜色 - 目录跳转,单双页号 - 页眉页脚 亲测好用,有同样需求的可以试用,有问题欢迎提 mr。
qtmuniao
@qtmuniao
7 months ago
在我的专栏《系统日知录》中写了篇文章说了说汉明码是如何构造的、MinHash 是如何对 Jaccard 距离近似的: https://t.co/ad8eE2oaIj 感兴趣欢迎订阅~
qtmuniao
@qtmuniao
7 months ago
在数据世界中,如何度量“距离” 在生活中,我们对距离的度量无时不刻。比如从下床到厕所的距离是十步、从北京到上海的距离是 1200 公里、从你的心到朋友心的距离… 那就只有自己知道了。
qtmuniao
@qtmuniao
7 months ago
在数据世界中,不同“领域”会使用不同的距离度量方式: 1. 在向量空间里,我们常用欧式距离或者 cosin 距离来度量向量远近 2. 在二进制世界,我们使用汉明距离来计算编码的差异 3. 在集合领域中,我们使用 Jaccard 距离来衡量集合的异同
qtmuniao
@qtmuniao
7 months ago
最后呢,这种历史上精彩的上下文所形成的经典“闭包”,”,又可以通过成语和用典等方式来封装调用,从而达到了极高的压缩率,极大提高了中文行文的信息密度。 这就是所谓的“高语境”的由来。
qtmuniao
@qtmuniao
7 months ago
英文胜在精确性 而中文胜在泛化性 这种泛化性体现在,单字有本义和引申义,组词有借用和比兴。任何字词背后都不是单个含义,而是一组随时间创造演化而成的相似概念集。 此外,中文在造词时又有极好的组合性,这种能力相当于概念空间笛卡尔乘积,可以通过相对少量的元概念构造出庞大的语义空间
qtmuniao
@qtmuniao
7 months ago
那如何确定一个词的具体含义呢?上下文!但有时任仍然有二义性,这也是为人所诟病的模糊性。但另一方面,也很容易通过合理地铺陈上下文,层层叠叠地营造出“诗意”。这很像prompt 对大模型语义空间的激活。
qtmuniao
@qtmuniao
8 months ago
这是和 ChatGPT 的聊天: https://t.co/AA5uiwf65X
qtmuniao
@qtmuniao
8 months ago
数据结构中,最基本的构成单元是:线性表、树、图。这是偶然的吗?还是说他反映了这个世界最基本的几种“构词法”?
qtmuniao
@qtmuniao
8 months ago
1. 线性表:因果关系。因果是我们能够对世界进行推理和认知的最底层逻辑,它关乎我们这个系统最本质的法则——前后相递的时间。 2. 树:层次关系。层次是我们由简单到复杂进行递归构建的最基本扩增方式。 3. 图:高维关系。图联是系统演化到一定复杂程度后,超出人类认知带宽后的无奈表述。
qtmuniao
@qtmuniao
8 months ago
AI 时代进行大规模数据处理 处理语义的清晰到模糊:简单过滤规则 → 分类小模型 → 抽取大模型 → 人工标注 处理引擎的简单到复杂:多线程/多进程 → Spark 批处理 → Ray 灵活定制
qtmuniao
@qtmuniao
11 months ago
@Hawstein
如果喜欢历史的话,罗振宇的《文明之旅》系列非常推荐。
Last Seen Users on Sotwe
yu-n
Seen from
United Kingdom
İzmir porno paylaşımı iyi seyirler
Seen from
Turkey
TİMUÇİN
Seen from
Turkey
HijabQueen
mehmet sibel çift
Seen from
Turkey
امال بنت بلد
Seen from
United Arab Emirates
Morgan Paddleford
Seen from
United States
lililili
Seen from
Turkey
Zinakar Mard
Seen from
United States
aryan
Seen from
Indonesia
Trends for you
1
Ronaldo
Under 10K tweets
2
Uzbekistan
Under 10K tweets
3
NFLPA
Under 10K tweets
4
The NFL
Under 10K tweets
5
Nuno Mendes
Under 10K tweets
6
USAID
Under 10K tweets
7
Leao
Under 10K tweets
8
mark lee
Under 10K tweets
9
#PORUZB
Under 10K tweets
10
Classic Sonic
Under 10K tweets
Most Popular Users
1
Elon Musk
@elonmusk
240.4M followers
2
Barack Obama
@barackobama
119.3M followers
3
Donald J. Trump
@realdonaldtrump
111.7M followers
4
Cristiano Ronaldo
@cristiano
110.1M followers
5
Narendra Modi
@narendramodi
107M followers
6
Rihanna
@rihanna
97.5M followers
7
NASA
@nasa
92.1M followers
8
Justin Bieber
@justinbieber
90.8M followers
9
KATY PERRY
@katyperry
87.4M followers
10
Taylor Swift
@taylorswift13
81.3M followers
11
Lady Gaga
@ladygaga
72.8M followers
12
Kim Kardashian
@kimkardashian
69.7M followers
13
Virat Kohli
@imvkohli
69.5M followers
14
YouTube
@youtube
68.7M followers
15
Bill Gates
@billgates
63.7M followers
16
The Ellen Show
@theellenshow
62.5M followers
17
Neymar Jr
@neymarjr
62.2M followers
18
CNN
@cnn
61.9M followers
19
X
@x
60.8M followers
20
Selena Gomez
@selenagomez
60.5M followers
Olivia
Online
✨
⭐
💫