Natural language processing specialist. Working as research engineer at @AIatMeta. Improving machine translation. Supporting Ukraine. Doing good and bad stuff.
@letopisi_rus@belyi_ej У меня есть подозрение, что это в каком-то смысле «ошибка выжившего»: просто людям с таким бэкграундом, с которым Револют может внезапно закрыть счёт (доход из-за границы или из непрозрачных источников и т.п.), многие другие банки его даже и не открывают.
@remilouf C’est quel côté « technique » qui t’intéresse ? L’entraînement de tes propres modèles (c’est ce que je fais personnellement), ou comment servir des modèles ouverts avec ta propre infrastructure, ou comment créer des harnais plus compliqués en utilisant des APIs qui existent déjà?
@esc_sof@opheliamoding They used to speak a Turkic language, but gradually lost it and switched to the local language, Belarusian. But kept writing it using the writing system they knew, the Arabic one.
@esc_sof@opheliamoding The Arabic script was brought to this territory by Lipka tatars, a Turkic ethnic group who moved there from the Golden Horde and Crimean Khanate. They were Muslims, which is the reason they used Arabic script.
Four years ago, NLLB set a milestone with MT for 200 languages. Today we present OMT: a family of models that extend support to 1600 languages while delivering competitive results in high/mid-resource language, with our 1B-8B models matching frontier and open 70B LLMs.
🧵(1/n)
Today, Meta is releasing two papers with my contributions: Omnilingual Machine Translation and Omnilingual SONAR.
“Omnilingual” means “intended to work with all languages”. And we take it seriously.
The papers themselves go into detail on our data mixtures, training recipes, and evaluation methodologies — so if you are building something massively multilingual yourselves, I hope they will serve as useful references.
To anyone, who is adding new languages to open machine translation models:
Could you please consider adding a pointer to your project in my new "awesome" list of newly machine-translated languages?
https://t.co/7nnYt8E9gK
#nlp#machinetranslation#lowresource#language#nllb
@tokinspb Мне достаточно во многих парижских кофейнях экспрессо-тоник делали) А вот в Ницце как-то бариста не знал, что это такое, и я заказал швепс со льдом, экспрессо, и попросил его налить первое во второе. Парень остался впечатлён)
@letopisi_rus это вы ещё не видели станцию Шатле Лез Алль в Париже, где пересекаются 8 веток (одна из них – два раза; одна в форме котёнка).
Там есть траволаторы, но где их нет, для любителей походить – раздолье.