Home
Language
English
Türkçe
Bahasa Indonesia
About
Privacy Policy
Terms of Service
Pricing
Sign In
Download All
Share
zono@Data Engineer
@zono_data
Data Engineer / Stats & Machine Learning Enthusiast / As an Amazon Associate, I earn from qualifying purchases / Tweets are totally personal & my own
Joined May 2023
98
Following
1.2K
Followers
590
Posts
Pinned Tweet
zono@Data Engineer
@zono_data
about 1 year ago
社内のデータサイエンティストがデータエンジニアリング業務をやってみたいという意見が少し増えてきた。 どこから勉強すればいけばいいのか分からないらしいが、とりあえず目の前の業務をやりつつ、周辺知識を書籍から拾っていくのがいいのでは?と言っておいた。 https://t.co/ueUKsRiWxk
zono@Data Engineer
@zono_data
3 months ago
データアーキテクチャの主要な選択肢の基礎から組織体制・技術選択まで網羅した書籍。 アーキテクチャ選定に迷っている現場は多いと思う。 どれが正解かではなく、自組織の状況に応じた判断軸を持てるようになることが、この本の本質的な価値だと感じた。 すごく良書。 https://t.co/HkUwEFui4o
zono@Data Engineer
@zono_data
6 months ago
この本の原著「Deciphering Data Architectures」評判良いし、個人的にも好きな本。 日本語訳が登場するのは嬉しい。 https://t.co/EpMllJHGwj
zono@Data Engineer
@zono_data
6 months ago
今年は仕事やプライベートが急に忙しくなってしまい、Xをやる時間がかなり減ってしまった。 読書はできていたので良かった。
zono@Data Engineer
@zono_data
8 months ago
データエンジニアの面接で聞かれる「データパイプラインの設計方法」や「技術選定の方法」などの質問はこの本を実践できていればある程度回答できるはず. 普段から技術の背景や特徴をキャッチアップしつつ、実務でどのように経験するかが重要. まず経験することが難しいが... https://t.co/u6ZGWaR42P
zono@Data Engineer
@zono_data
8 months ago
この書籍の原著をサラッと読んでみたけど良かった。 非構造化データの取扱いやスキーマ管理の複雑さといった課題を解決するためのアプローチの1つ。 Apache Spark等のバッチ・ストリーミング処理での冪等性についても触れたりしていて良書だと思っている。 https://t.co/LxQ8uOiyGI
zono@Data Engineer
@zono_data
8 months ago
メダリオンアーキテクチャも非構造化データに対応するように考慮され始めている。 非構造化データとLLMを組み込み拡張できるようなRAGパターンがいくつか紹介されている。 どうやって構造化データと非構造化データを統合していくかが鍵になってきたりする。 https://t.co/KCIjfFfxSn
zono@Data Engineer
@zono_data
8 months ago
比較的新しいデータエンジニアリングの情報を英語で取りに行くなら、このようなコミュニティとかを見ると面白い。 普段、海外のデータエンジニアやアナリストがどんなことで困っていて、どんな技術をキャッチアップしているのかを見ることができる。 https://t.co/qFvrbhxO4x
zono@Data Engineer
@zono_data
8 months ago
この数年でソフトウェアエンジニアリングの書籍が増えてきている印象がある。 やはりAIの台頭により、各職種の守備が広がり、データサイエンティストのような職種にもテスト、リファクタ、デプロイのようなSWEの一部の業務内容が求められてきているのかもしれない。 https://t.co/E6hq1Swwzw
zono@Data Engineer
@zono_data
8 months ago
これ、すごくありがちで さらに、いつから間違っていたのかすらも判明しないということも少なくない。 結構つらい...
がく3.0@ちゅらデータエンジニア
@gak_t12
8 months ago
これありがち 実は何年も間違った計算が行われてたやつ… 真っ青になるよね、元システムの人
zono@Data Engineer
@zono_data
9 months ago
データサイエンティストの役職が上がったり、データエンジニア業務も開始するようになった時に紹介すると喜ばれる本。 広い範囲を扱っていて読みやすいので結構人気なんだと思う。約4年前の本だけど良書の1つ。 実践的データ基盤への処方箋 https://t.co/lQvrjtI9C8
zono@Data Engineer
@zono_data
9 months ago
この本、個人的に好みだった。 データ活用は分析等の利活用するものだけを格納するように限定したり、定期クエリのような見せかけのデータ活用だけではなく、業務改善等の本来やるべき活用するというのが書かれている。 慣れや業務分担が進んだ時に再度読み返したい。 https://t.co/ru8fk1njve
zono@Data Engineer
@zono_data
9 months ago
データの整合性を考慮したパイプライン作り。 データパイプラインが複雑になればなるほど難しくなるが、チェックポイントを使った実装は無難だと思っている。 自動的にリトライされるようになっていても良いし、別フローとして意図的に再実行させるのもケースによる。 https://t.co/dPXAGVi5pR
zono@Data Engineer
@zono_data
9 months ago
なるほど。 データサイエンティストは.ipynb形式のNotebookで仕事することがほとんどなので、コードレビュー文化やソースコード管理とか品質テスト等は未経験な人も少なくない。 https://t.co/VnIop0F9da
zono@Data Engineer
@zono_data
9 months ago
データ同期処理を劇的に改善した事例。 このように既存の仕組みがボトルネックになり、新方式移行する必要が発生するのは往々にしてある。 既存機能調査や他チームへの交渉、新方式の検証といった泥臭い内容は非常に参考になる。 federated queryが使えるとシンプルになる。 https://t.co/PXPyMU6VpZ
zono@Data Engineer
@zono_data
9 months ago
ビッグデータの品質を評価し、管理するための資料。 サンプリング、プロファイリング、データ品質のディメンションが記載されている。あくまで品質手法の話で、あわせて書籍データ品質実践ガイドも読みたい。 リンク先のPDFは無料で取得できた。 https://t.co/K9FDtBzAbu
zono@Data Engineer
@zono_data
9 months ago
5つの層から成るアーキテクチャのフレームワーク。 こんな論文が出ていたからなのか、メダリオンアーキテクチャ2.0とかプラチナレイヤー等の概念が少しづつ登場したのかもしれない。 https://t.co/lESeYVvVRr
zono@Data Engineer
@zono_data
9 months ago
このようなクエリのルールは改めて重要だと感じる。 今はAIがクエリを書いたりレビューしたりするが、ルールを定めて守らせないと想定した挙動をしないことがある。 最終的な人間の判断のため、サブクエリは使わないとか、カラムにJOIN元のCTEsを明記させるとかは必要。 https://t.co/pWVdwkbdzv
zono@Data Engineer
@zono_data
9 months ago
ほう。データモデルの書籍が発売される。 「データの意味のズレ」からくる同じ言葉を使っているのに話が噛み合わないことを解決できるのか? データ分析基盤だけではない、広い範囲になる模様。 https://t.co/RRYSKBDcjP
zono@Data Engineer
@zono_data
9 months ago
Data Vaultを運用した記事。 ディメンショナルモデリングとの相性の良さ等のメリット・デメリットや手法の採用基準、その他技術も紹介。 これだけの内容を全て無料で公開してくれているのは非常にありがたいこと。 Data Vaultを3年以上運用して得た学び - yasuhisa's blog https://t.co/zoQYgpdR9J
zono@Data Engineer
@zono_data
9 months ago
イベントソーシングとチェンジデータキャプチャ(CDC)を比較。 Outboxパターンやコマンドクエリ責務分離(CQRS)といった関連する設計パターンやCDCとの組み合わせも。 最後の「さらに先へ進むためのリソース」というドキュメントや記事も良い。 https://t.co/GuUEOuezCo
Last Seen Users on Sotwe
lililili
Seen from
Turkey
Siva Cuddalore
Seen from
India
TANTE STW
Seen from
Indonesia
A___22
Seen from
Egypt
渡边君
Seen from
United States
k9
Seen from
Vietnam
K
baby
Seen from
France
Muncrat Dalam
Seen from
Indonesia
ADE ARUM
Seen from
Malaysia
Trends for you
1
All 20
Under 10K tweets
2
Good Sunday
Under 10K tweets
3
#SeductiveSunday
Under 10K tweets
4
Happy Birthday Elon
Under 10K tweets
5
Happy 100th
Under 10K tweets
6
#SundayVibes
Under 10K tweets
7
#JacksonWang
Under 10K tweets
8
#EnemiesWithBenefitsEP9
Under 10K tweets
9
#AustrianGP
Under 10K tweets
10
Sunday Funday
Under 10K tweets
Most Popular Users
1
Elon Musk
@elonmusk
240.6M followers
2
Barack Obama
@barackobama
119.2M followers
3
Donald J. Trump
@realdonaldtrump
111.7M followers
4
Cristiano Ronaldo
@cristiano
110.5M followers
5
Narendra Modi
@narendramodi
107M followers
6
Rihanna
@rihanna
97.6M followers
7
NASA
@nasa
92.2M followers
8
Justin Bieber
@justinbieber
90.9M followers
9
KATY PERRY
@katyperry
87.6M followers
10
Taylor Swift
@taylorswift13
81.4M followers
11
Lady Gaga
@ladygaga
73M followers
12
Virat Kohli
@imvkohli
69.8M followers
13
Kim Kardashian
@kimkardashian
69.8M followers
14
YouTube
@youtube
68.7M followers
15
Bill Gates
@billgates
63.9M followers
16
Neymar Jr
@neymarjr
62.5M followers
17
The Ellen Show
@theellenshow
62.4M followers
18
CNN
@cnn
61.9M followers
19
X
@x
60.8M followers
20
Selena Gomez
@selenagomez
60.7M followers
Olivia
Online
✨
⭐
💫