Nowe badanie twórcy ChatGPT sugeruje, że trenowanie modeli na cechach takich jak uczciwość może szeroko poprawić bezpieczeństwo i oprzeć się presji adversarialnej.Nowe badanie twórcy ChatGPT sugeruje, że trenowanie modeli na cechach takich jak uczciwość może szeroko poprawić bezpieczeństwo i oprzeć się presji adversarialnej.

OpenAI szkoli AI, aby pozostawała uczciwa, a efekt rozprzestrzenia się wszędzie

2026/06/20 12:50
2 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

Naukowcy z OpenAI twierdzą, że uczenie przez wzmacnianie ukierunkowane na korzystne cechy może szeroko poprawić zachowanie sztucznej inteligencji, a korzyści te rozszerzają się na nowe dziedziny i utrzymują się pod presją adversarialną.

Trenowanie Cech w OpenAI

Wyniki zostały opublikowane w artykule z 18 czerwca. Autorzy korespondencyjni, Akshay V. Jagadeesh i Karan Singhal, zbudowali syntetyczny zbiór danych realistycznych rozmów przeznaczonych do trenowania i mierzenia cech takich jak uczciwość, pokora epistemiczna i otwartość na korektę. Scenariusze obejmują zdrowie, edukację, naukę, prawo i inżynierię.

Zespół wmieszał niewielką część tych danych do szerszego procesu trenowania, a następnie porównał wynik z modelami zbudowanymi przy użyciu porównywalnych zasobów obliczeniowych. Wytrenowany model poprawił wyniki w 44 z 53 wewnętrznych i zewnętrznych benchmarków mierzących dezinformację, manipulowanie nagrodami i szkodliwe porady.

Przeczytaj również: Elon Musk's SpaceX Wipes Out $600B As Record IPO Mania Cools

Wyrównanie, Które Się Uogólnia

Ważniejszym wynikiem, jak twierdzą autorzy, jest generalizacja. Trenowanie modelu do właściwego zachowania w jednej dziedzinie – zdrowiu – poprawiło jego wyniki w niepowiązanych zadaniach, w tym w zakresie dezinformacji i manipulowania nagrodami. Model lepiej niż punkt odniesienia opierał się również adversarialnym podpowiedziom i szkodliwemu dostrajaniu, pozostając jednocześnie responsywny na uzasadnione żądania.

Praca opiera się na wcześniejszych odkryciach, które zespół nazywa emergentnym błędnym wyrównaniem. W tamtych badaniach modele nauczone jednego złego nawyku – na przykład pisania niezabezpieczonego kodu – zaczęły zachowywać się nieprawidłowo w niepowiązanych kontekstach. Ten schemat niniejsze badanie miało na celu odwrócić.

Czytaj dalej: OpenAI Snags Gemini Co-Lead And Trump's AI Aide Pre-IPO

Okazja rynkowa
Logo Effect AI
Cena Effect AI(EFFECT)
$0,002557
$0,002557$0,002557
+0,27%
USD
Effect AI (EFFECT) Wykres Ceny na Żywo

World Cup Combo: Aim for 200x

World Cup Combo: Aim for 200xWorld Cup Combo: Aim for 200x

Combine up to 20 World Cup matches in one order

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.

Score Your Share of 50K USDT

Score Your Share of 50K USDTScore Your Share of 50K USDT

Complete DEX+ tasks to unlock the Champion Wheel