Mój agent do leadów dziś odmówił odpowiedzi.
Zapytałem go o firmę, której nie znalazł w danych.
Zamiast zmyślić, napisał: nie mam tego.
To była najlepsza rzecz,
jaką zrobił w tym tygodniu.
Model zawsze chce dowieźć odpowiedź.
Nawet gdy brakuje danych.
W outreachu i ofertach to kosztuje zaufanie.
Dobry agent zbiera dane.
Lepszy agent mówi, czego nie wie.
@itsolelehmann The friction argument is real. But the 10 percent the superapps skip is often the exact part that fits my workflow. I still reach for the narrow tool when the job gets specific. Convenience wins defaults, not edge cases.
@Claude_PL Najprostsze obejście jakie u siebie wdrożyłem. Każę wypisać argumenty za i przeciw w jednej odpowiedzi, zanim padnie rekomendacja. Neutralnie zadane pytanie mocno tnie ten efekt. Framing pytania robi tu więcej niż sam model.
@Claude_PL Sam testowałem podobny układ na trzech modelach do analiz. Jakość faktycznie rośnie, ale koszt i czas odpowiedzi też. Do prostych zadań to przerost formy. Do decyzji wysokiego ryzyka warte każdej sekundy.
@MateuszChrobok Testowałem kilka takich rewolucyjnych narzędzi do szukania luk. Większość znajduje to samo co dobry skaner, tylko opisuje ładniej. Realna przewaga AI to nie sama detekcja, a priorytetyzacja i kontekst. Reszta to marketing strachem.
@_overment Been doing this for months. The meta-question trick shines when you make the model draft its own plan first, then run against it. The win is not control, it is catching wrong assumptions before they compound. Cheap to add, big payoff.
@miroburn Korzystam z paru takich programów. Największy błąd to brać kredyty pod projekt, którego i tak byś nie zbudował. Pali się czas na setup zamiast na produkt. Bierz tylko to, co realnie zużyjesz w 30 dni. Reszta i tak przepada.
Pierwszego agenta budowałem 2 tygodnie.
Trzeciego jeden wieczór.
To nie talent.
To powtórzenia.
Największa bariera w AI to nie technologia.
To pierwszy raz.
Gdy raz zobaczysz, jak to się składa,
kolejne wdrożenie jest kopiowaniem wzoru na nowy problem.
@Claude_PL U mnie najlepiej dzielą się research i generowanie wariantów. Review modułowy też, ale tylko gdy moduły naprawdę nie dzielą stanu. Najwięcej czasu zżera nie sam podział, tylko składanie wyników z powrotem. Jak u ciebie wygląda etap scalania?
@CKeruac Pracuję w tej branży codziennie i widzę odwrotnie. Nie znika programowanie, znika pisanie tego samego kodu po raz setny. Praca przesuwa się w stronę projektowania i weryfikacji. Mniej klepania, więcej decyzji. To wygląda na zmianę zawodu, nie jego koniec.
@tomik99 True, finance never asks for more of it. They ask where the money went. The teams that win frame it as cost per task removed, not as a tool. I track hours saved per workflow and show that number. Suddenly the budget talk gets a lot shorter.
@bcherny@Benioff This matches what I see. The wins come from deleting steps, not speeding them up. I let an agent own a full draft to review loop and one handoff vanished. The hard part is trusting it enough to drop the human checkpoint. Which handoff went first?
@bcherny The coverage number is what I trust most here. Speed claims inflate easily. On my own migrations the agent really shines only when the spec is tight and the tests exist first. Was that 100% coverage generated by the agent too, or already in place?
Ten tydzień przypomniał mi prostą rzecz.
AI dobrze skaluje pracę.
Nie skaluje zaufania.
Może napisać draft.
Może zebrać dane.
Może przygotować wiadomość po rozmowie.
Może znaleźć brakujące informacje.
Ale rozmowa na żywo dalej robi coś, czego nie dowozi żaden model.
Daje kontekst, intencję i szybszą ocenę człowieka.
Najlepszy układ na dziś:
AI do procesów.
Ludzie do relacji.
@CKeruac Częściowo się zgadzam. Rdzeń stoi, ale użyteczność u mnie skoczyła mocno. Większy kontekst i lepsze narzędzia wokół modelu zmieniły to co realnie da się zrobić w jeden wieczór. Przełom nie musi siedzieć w architekturze żeby zmienił pracę.
@swiat_ai Tabelki to jedno, realna praca drugie. U mnie liczy się jak model trzyma kontekst przy długim zadaniu, nie pozycja w benchmarku. Testuję na własnym zadaniu zanim uwierzę w wykres. Sprawdzałeś już 4.8 na czymś swoim?