🏎️ In the Fast Lane of AI: Today’s Leader, Tomorrow’s Contender🔥
The AI landscape is shifting faster than ever. Today’s front-runner could be outpaced tomorrow.
Stay ahead with Serenity* Star—start free with €5 in credits, no credit card required! 🚀
https://t.co/QF4grFSEyN
"Can you figure out what the experts in a Mixture of Experts model are each specialized in?"
Yes, this is touched on in the Mixtral paper (2024) and discussed quite extensively in the ST-MoE paper (2022), section 7. Also summarized in https://t.co/jBaBaBdzrL
People's intuition is that MoE experts should specialize in a specific topic (e.g., chemistry). That is not the case (except for FrankenMoEs/MoErges or a new pattern called shared experts)
One thing to remember is that the MoEs gate/router aims to load balance. If you use topic-specialized experts, then you risk all tokens of topic X being sent to the same expert and end up having unused experts and filling the capacity of popular experts. This won't work well as then for every type of context, just one set of experts will be used. Hence, the MoE loss function includes an auxiliary loss that encourages giving all experts equal importance.
Due to this auxiliary loss function and the routing, you end up having experts specializing in different types of tokens (e.g., verbs, proper names, numbers, etc), which makes sure that the tokens are well distributed across experts.
People are asking for human descriptions for all experts, and I don't think that is exactly possible. That's like asking what each attention map in Vision Transformers means. We have nice tools for getting the attention maps and visualizing; we can see some patterns, but trying to expect pretrained MoE experts to have topic specialization is somewhat inaccurate
If you want to dive more into it, I suggest looking at DeepSeekMoE paper (2024), which has some very interesting ideas about knowledge hybridity and redundancy and uses shared experts to capture common knowledge across varying contexts.
I hope this was useful 🤗
Reads:
- ST-MoE (2022) https://t.co/V7a5sYdScT
- Mixtral (2024) https://t.co/9J5kZua8oG
- DeepSeekMoE (2024) https://t.co/UZD6vSKsdD
- My comprehensive reading list of MoE papers https://t.co/Xhcg6CtJDd
- MoEs blog post https://t.co/hWOOyUX9Y4
cc @natfriedman@maximelabonne@dwarkesh_sp
Check out my latest article: Más Allá de ChatGPT: La Importancia de los Modelos de IA Open Source en la Arquitectura Corporativa https://t.co/MKhxOByaIx
📢 Emocionados por anunciar alianza con @AseBio , líder en biotecnología.
Reforzamos el compromiso de @Binit en el avance científico y #tecnologico 🔬 aportando conocimiento en #desarrollosoftware health ¡Gracias por confiar en nosotros! 💪🚀
https://t.co/k2iklxneOx
El #SingularityTechDay23 está lleno de insights: IA generativa, seguridad, Edge AI, y aplicaciones de OpenAI y Google Bard. Además, exploramos cómo la IA está transformando los negocios y la sociedad, y discutimos sobre el futuro de la nube y las Smart Factories. 🌐🤖
En el #SingularityTechDay23, nos sumergimos en el fascinante mundo de la IA generativa. El futuro es ahora y estamos aquí para darle forma. ¡Sigamos innovando!
#Innovación#TechDay
@BinitTech dice presente en el #MWV2023, el evento más importante del mundo de las tecnologías en comunicaciones.
Hoy es el primero de 4 días intensivos para acceder a los próximos avances tecnológicos que transformarán nuestras vidas, el trabajo y las empresas.
Nuevo Sistema de Fiscalización Electrónica Remota (SIFER)
Ahora podés hacer una inspección 100% de manera on line. Sumamos a las entidades bancarias.
.
#agcmáscerca#trámitesmáságiles
En el marco de la internacionalización de @BinitTech, estuvimos presentes en #SouthSummit21 presentando nuestra experiencia y capacidades en la creación de valor por medio de la innovación tecnológica.
https://t.co/x82qwK3TIJ
Fuimos elegidos por el Gobierno Argentino para asistir a el South Summit en Madrid 🇪🇸 como parte de la delegación de empresas tecnológicas.
¡Un punto de encuentro entre las oportunidades de hoy y la realidad del mañana!
Si querés conocer más visitá:
https://t.co/tc6MKINvJ6
Unimos fuerzas con RDA Mobility para crear el primer carsharing sustentable de la Argentina #KekoArgentina 🇦🇷
Te invitamos a conocer más de cómo funciona acá
https://t.co/TnLuiNvm5L