שרשור פרטים קטנים באסטריקס. חלק #2
כדרכי בקודש, אני מדי פעם יושב לקרוא שוב את אסטריקס וגם מגלה בהם פרטים חדשים לפעמים.
מסתבר שב-״אסטריקס מגלה את אמריקה״, היוצרים הכניסו ביקורת קטנה ומרומזת על ארצות הברית. בכל פעם שמוצג אינדיאני ״חבוט״ מופיע מעליו סמל הקשור לארצות הברית 👇🏼
מנחם, אחד המפגינים במחאת הקיצוניים בכביש 4: "לא מעניין אותנו לא ביטחון ולא שום דבר. אנחנו לא רוצים להיות חלק מהמדינה כאן, אנחנו עם אחר. הכסף שאנחנו מקבלים מהמדינה זה החזר מהכסף שנתנו לה, גונבים מאתנו יותר ממה שנותנים לנו. עדיף המנדט הבריטי"ת
נראה לי שגרירות יפן בישראל צריכה לקחת חסות על בן גורדון, הוא מפגיש את הצופים ביוטיוב עם יפן כל כך יפה ומעניינת ועם מפגשים רנדומליים לחלוטין עם אנשים כל כך נחמדים ומסבירים פנים.
@JapanEmb_Israel@YoshijapanI
מזכיר את המירוץ למליון, מאוד איכותי ולא ממוסחר
https://t.co/iK5P4ghcOt
תחשבו רגע - כשרואים פיצ'ר של "קיבוץ ידיעות דומות", הרפלקס שלנו אומר שצריך שם איזה מודל. embeddings, clustering, משהו בסגנון.
הבוקר בניתי את זה בלי כלום מזה. רק... גימטריה.
יש לי אפליקציית חדשות קטנה שרצה על Vercel בחינם. סוג של RSS מהדור הישן, אוספת כותרות מהרבה מקורות.
מה שתמיד הציק לי זה שאותה ידיעה מופיעה שוב ושוב בניסוחים קצת שונים בין המקורות. כל פעם אמרתי לעצמי שאני צריך embeddings כדי לזהות כותרות דומות, כמו שעושים מאז שיש לנו אמבדינגס.
אבל הבעיה היא שברגע שנכנסים לזה, כל הפרויקט נהיה מערכת. עד עכשיו זה רץ בלי דאטה בייס, אבל אם משתמשים באמבדינגס זה לא לענין לשלוח שוב ושוב עשרות כותרות למודל. אז צריך DB, צריך לבדוק למי עדיין אין embeddings, זה מסרבל ומאט את האפליקציה שכרגע פשוט מציגה אוסף כותרות מפידים שונים של אתרי חדשות.
הבוקר התעוררתי קצת מוקדם והכפילות בכותרות עצבנה אותי, פתאום נזכרתי במשהו ישן שבניתי פעם, ספרייה לזיהוי שגיאות הקלדה.
שם עשיתי משהו שמזכיר embeddings, אבל בלי embeddings: לוקחים טקסט, ממירים אותו לוקטור מספרים לפי גימטריה של האותיות, ואז עושים חישוב קירבה בין הוקטורים.
אותו רעיון, רק בלי מודל, בלי API, בלי database ובלי המתנה.
פתחתי Cursor מהטלפון, composer 2.5, ונתתי לו לינק לריפו הישן. ביקשתי ממנו לקחת את הרעיון של similarity בין וקטורים של גימטריה ולהתאים אותו לכותרות חדשות.
הוא בנה משהו בסיסי. העתקתי מהאפליקציה עשרות כותרות אמיתיות וביקשתי ממנו לוודא שזה יעבוד בעולם האמיתי.
משם הוא לקח את זה לכיוונון thresholds, יצר לעצמו גם סקורינג לפי כמות אותיות חופפות, הוספתי כלל קטן של זמן. אם יש פער של שעה, זאת כנראה כבר לא אותה ידיעה.
הקטע המעניין הוא שזה פשוט עבד.
כנראה כי כותרות חדשות חוזרות שוב ושוב על אותן מילות מפתח: שמות, מקומות, מספרים, ניסוחים דומים.
אז גם representation יחסית "טיפש" עדיין מצליח לשמר מספיק מהמבנה של המשפט כדי למצוא דמיון.
וכל זה בלי embeddings, בלי קריאות נוספות, בלי database, ומהטלפון.
ברור שזה לא מושלם כמו embeddings. אם שני מקורות ינסחו את אותה ידיעה בצורה מאוד שונה, הגימטריה לא תתפוס את זה.
אבל בשביל היוז קייס הזה זה מספיק טוב.