Nowe narzędzie do pomiaru zdolności inżynierskich AI

Narzędzie stworzone przez zespół badaczy z OpenAI ma na celu mierzenie zdolności inżynierskich maszyn opartych na sztucznej inteligencji. Nowy benchmark, nazwany MLE-bench, jest narzędziem otwartoźródłowym i został opisany w artykule umieszczonym na platformie arXiv. Dodatkowo, na stronie internetowej OpenAI opublikowano informacje na temat tego narzędzia, które zostało udostępnione do użytku przez deweloperów AI.

Nowe zastosowania sztucznej inteligencji

Wraz z rozwojem technologii uczenia maszynowego i sztucznej inteligencji, pojawiają się nowe obszary zastosowań. Jednym z nich jest inżynieria oparta na AI, gdzie systemy te są wykorzystywane do rozwiązywania problemów inżynieryjnych, prowadzenia eksperymentów i generowania nowego kodu. Celem takich aplikacji jest przyspieszenie odkryć oraz rozwiązywanie problemów technicznych w bardziej efektywny sposób, co jednocześnie obniża koszty produkcji i skraca czas tworzenia nowych produktów.

Obawy związane z rozwojem AI

Niektórzy specjaliści z branży sugerują, że rozwój systemów inżynierskich opartych na AI może doprowadzić do sytuacji, w której maszyny przewyższą ludzi w pracy inżynieryjnej, co mogłoby spowodować, że rola człowieka w tym procesie stanie się zbędna. Z drugiej strony, pojawiają się również obawy dotyczące bezpieczeństwa takich systemów, w szczególności czy nie zaczną one traktować ludzi jako niepotrzebnych dla realizacji swoich celów.

Zakres działania narzędzia MLE-bench

Narzędzie MLE-bench nie koncentruje się bezpośrednio na takich zagrożeniach, ale otwiera możliwości rozwoju narzędzi, które mogą zapobiec potencjalnie niepożądanym skutkom rozwoju AI. Nowy benchmark składa się z serii 75 testów, które zostały opracowane na podstawie rzeczywistych problemów dostępnych na platformie Kaggle. Każdy z testów stanowi wyzwanie dla systemu AI, który ma za zadanie rozwiązać problem w sposób praktyczny i możliwy do wykorzystania w rzeczywistości.

Ocena wyników testów AI

Po zakończeniu testu wyniki są oceniane pod kątem poprawności oraz przydatności w realnym świecie, a system otrzymuje odpowiednią ocenę. Wyniki testów będą wykorzystywane przez zespół OpenAI jako wskaźnik postępów w badaniach nad sztuczną inteligencją.

Autonomiczność systemów AI w zadaniach inżynieryjnych

Istotnym elementem MLE-bench jest sprawdzanie, na ile systemy AI potrafią autonomicznie przeprowadzać zadania inżynieryjne, w tym również innowacyjne. Aby poprawić swoje wyniki, testowane systemy prawdopodobnie będą musiały nauczyć się analizować własne działania, co może obejmować także wnioski wyciągnięte z wyników testów w ramach MLE-bench.

Tags:ai, benchmark, openai, sztuczna inteligencja

Suwerenność danych w erze AI

AI od Microsoft w służbie zdrowia i medycynie

MLE-bench od OpenAI mierzy zdolności AI