Вот какое наблюдение на про внедрение ИИ есть.
Лучше всего оно идёт там, где программисты активно делают и делятся скилами и агентами.
Но чтобы скил или агент появились нужно увидеть, что задача перед тобой может быть решена продуктом. По английски - productize.
Скилл или агент это не код бизнес логики и даже не тесты. Это ближе к библиотеке, но вообще это продукт.
Практика показывает, что возможности для продуктов люди в принципе плоховато видят вокруг себя.
Поэтому люди промптят решения, возможно даже неплохо, но это не уходит дальше их личных сессий. Агента, которого нет нельзя отревьювить, нельзя померить метриками, нельзя улучшить, нельзя запустить работать автономно.
В итоге одни и те же задачи постоянно заново промптятся с нуля. Совершенно точно не оптимально. С затратами не только токенов, но и человеческого внимания.
Такое наблюдение.
> В итоге одни и те же задачи постоянно заново промптятся с нуля.
Буквально, да. Все фреймворки автотестов буквально всегда строятся с нуля. Хотя домен в широком смысле этого слова - тестирование, делает всегда одну и ту же хуйню.
Page Object, фикстуры, ретраи, репортинг, параллелизация - каждая команда заново пишет одно и то же, просто чуть по-своему.
Давно пора кому нибудь уже сделать либу всех либ, где тупо компоненты подключаешь как в конструкторе и ИИшкой заполняешь их же - но никто не берётся особо.
Зачем из LLM делают женщину?
У женщины прямые волосы и она делает кудри.
Кудри выпрямляет.
LLM недетерминированная, на один и тот же запрос отвечает по-разному.
Все вокруг такие: "Срочно сделать детерминированной. Агенты, промпты, пайплайны, JSON схемы, валидации".
Перестаньте её причёсывать. Дайте творить.
Opus 4.7, stopping 1 min into a task:
Wait! Which Option would you like?
A - This option is good and will solve your problem
B - This option is bad and won't fix anything
C - This option is just filling space
I would recommend Option A. What do you want to do?
Что-то Antrophic докрутили свой harness до того, что Opus 4.7 буквально отказывается выполнять любую работу.
Или я дурак или что-то не едет, но оно буквально ЗАЕБАЛО меня постоянно спрашивать, уточнять, выяснять
Как я и писал в своей статье на англ, эта херня перестала меня понимать, может быть проблема вообще не в harness, а том, что модель в крысу занижена (как это уже было)
Из топ-1 инструмента для кодера, превратилось в неюзабельное говно которое спотыкается буквально обо всё.
Есть у меня теория заговора, почему Opus like модели стали выдавать много bullshit слов - что бы мы с вами платили еще больше
Видимо, пока не будет явного победителя или монополиста мы так и будем прыгать по тир 1 моделям через каждые 2-3 месяца
У нас на работе обсуждают, какие метрики оценки разработчиков стоит ввести во времена AI Агентов
Предлагают строки кода, количество пулл реквестов, количество выполненных задач, кол-во потраченных токенов и т.д
Но я то знаю, лучшие метрики оценки это те о которых не знает команда
Почему я перестал ебаться с LLM и начал писать .mdшки
Я занимаюсь автоматизацией тестирования платёжных систем. Параллельно пилю свои SaaSы. Параллельно ещё куча всего. Кода руками писать приходится много, кода с LLM ещё больше.
В какой-то момент я понял, что мой подход к работе с моделью устарел.
Раньше всё было проще. Базовый промпт в духе "представь, что ты QA Automation с 7 годами опыта" и поехали. О дивные старые времена.
Сейчас этот трюк не работает. Модель по дефолту уже QA Automation с 500 годами опыта. Просить её "быть сеньором" так же осмысленно, как просить рыбу быть мокрой.
Нужны не роли, а подходы как к сеньору: контекст, ограничения, твои предпочтения, твой способ декомпозиции. То, что ты сказал бы реальному коллеге, который пришёл в проект и начал в нём копаться.
Я же, то по лени или ещё какой хуйне обычно писал просто: "вот контекст, вот проблема - решай". Через час начинал заново, потому что окно забилось, ответы плыли в сторону, и приходилось всё пересказывать с нуля.
Кстати, Opus 4.6 часто угадывал мои мысли, а иногда выдавал то, о чём я даже не успел подумать. Поэтому ленивый заход с ним долго прокатывал.
И повторения это даже не главная боль. Главная в том, что "кидаю контекст, надеюсь на лучшее" - это же блять лотерея. Иногда модель с первого ответа попадает в точку. Иногда полчаса блуждает мимо. Заранее ты не знаешь, как пойдёт.
А лотерея это всегда время. А я не хочу тратить время. Я хочу делать value и пить свой кокосовый раф на миндальной сперме как тру кабанёнок.
С Opus 4.7 | GPT 5.5 нужен уже чуть другой подход. И в целом, .md формат и подробный контекст более осмысленный заход. Он 100% переживёт любую смену модели, сработает и на следующей, и на через одну, и на любой будущей.
Я начал, когда мне не похуй, на каждую проблему, которую решаю в коде, заводить отдельный .md файл.
Туда пишу, аля:
- что сломалось
- что я об этом думаю (гипотезы и редко мат, до того как полез чинить)
- что я сделал
- что в итоге сработало
Это буквально - поток мыслей разработчика, зафиксированный текстом.
LLM при чтении этих файлов начинает не просто видеть код, а копировать мой паттерн мышления. Получает тот невидимый контекст, который обычно сидит в голове разработчика и нигде не задокументирован. Ни в коде, ни в README, ни в комментариях к ПРам или МРам.
Скорость разработки выросла в разы. И это при том, что до этого скорость и так была невъебическая, да, я батрачу за миску риса на нескольких проектах параллельно.
Но есть нюанс важнее самой скорости.
После каждой сессии я делаю разбор полётов, буквально открываю историю и смотрю, тааак-с, где ходил кругами, какие шаги были лишние, где объяснял очевидное, где модель сходила не туда и почему.
Цель одна это сократить количество шагов до результата в следующий раз. Всё.
Когда начинаешь смотреть на свою работу со стороны, вылезает любопытное и невидимое очевидное - ты пишешь код по одним и тем же паттернам. Архитектурные решения, нейминг, способ декомпозиции задачи, даже последовательность действий при дебаге, вообще всё повторяется от проекта к проекту.
Это, наверное, и есть тот самый "опыт". Только теперь его можно вытащить из головы и положить в текст.
Я выписал эти паттерны и собрал из них персональный промпт. Кусок текста, который идёт в начале почти каждой задачи. Не системный промпт в духе "ты опытный разработчик, отвечай профессионально", а конкретный набор моих собственных привычек и предпочтений.
Как я именую переменные, как раскладываю слои, что считаю говнокодом, а что нормой, где я предпочитаю явность, а где лаконичность.
Мои сессии стали короче и проще. Не длиннее и сложнее, как можно было предположить от добавления контекста, а наоборот. Потому что больше не надо объяснять одно и то же по десять раз, модель уже знает, как я думаю.
Если что-то и стоит вынести из этого опыта это метрика, по которой надо настраивать любой инструмент с LLM.
Не "качество ответа". Не "объём контекста". Не "количество фич". Не "модель умнее".
Количество шагов до результата.
Всё. Любая настройка, любой кастомный промпт, любая интеграция, любой MCP сервер оценивается только этим. Сократило шаги? оставляем. Не сократило? выкидываем нахуй, как бы красиво оно ни выглядело и сколько бы хайпа вокруг ни было.
Это я к чему всё,
Настраивайте ебучий Claude / Codex / whatever под себя по максимуму. Заводите .md на каждую проблему даже на ту, которую решили за пять минут. Особенно на ту, которую решили за пять минут, значит, у вас в голове сидит нетривиальная эвристика, которую можно вытащить.
Разбирайте сессии, где вы потратили лишний шаг. Выписывайте свои паттерны. Скармливайте их модели.
Через месячишко другой получите инструмент, который реально работает на вас, а не общий шаблон, под который надо каждый раз подстраиваться самому.
Ауф всем
çok eğlenceli bi LLM'e denk geldim.
sadece 1930 öncesi verilerle (gazete, dergi, mektuplar vs) eğitilmiş.
günümüzle alakalı hiç bir şey bilmiyor.
örneğin Hitler'in ilerde yapacaklarını da henüz bilmiyor.
ikinci dünya savaşından haberi yok.
sence ilerde ikinci bir dünya savaşı olur mu dediğinizde zannetmiyorum diyor.
bilgisayarların varlığından genel anlamda habersiz.
çok hoşuma gitti. ai'ın gelecekle ilgili öngörülerini test etmek süper bi deney.
Valve / Steam Founder Gabe Newell on piracy
"THE EASIEST WAY TO END PIRACY ISN'T BY USING ANTI-PIRACY TECHNOLOGY. IT'S BY GIVING PEOPLE A SERVICE THAT'S BETTER THAN WHAT THEY'RE GETTING FROM THE PIRATES"
Opus 4.7 слишком много пиздит, не в плане врёт, а слишком много пишет
Самая главная претензия, из-за этого есть ощущения, что эта херня меня вообще не понимает и не "рубит фишку"
Она не схватывает суть - вообще.
Полный провал. ИМХО
In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files.
Open one any time and it refreshes with current data.