Η Anthropic πρότεινε νέα πλαίσια πολιτικής για την ΤΝ καθώς τα προηγμένα συστήματα αποκτούν ισχυρότερες δυνατότητες.
Η εταιρεία θέλει οι κυβερνήσεις να θεσπίσουν κανόνες για τα μοντέλα αιχμής και να προετοιμάσουν τους εργαζομένους για τον οικονομικό αντίκτυπο της ΤΝ. Το σχέδιό της καλύπτει επικίνδυνες αναπτύξεις, ανεξάρτητες δοκιμές, κυβερνοασφάλεια και δημόσια ανθεκτικότητα.
Η Anthropic παρουσίασε δύο προτάσεις στο πλαίσιο του σχεδίου «Policy on the AI Exponential». Το Προηγμένο Πλαίσιο ΤΝ εστιάζει σε ισχυρά μοντέλα, ενώ το Οικονομικό Πλαίσιο Πολιτικής αφορά τους εργαζομένους και τα κοινά οικονομικά οφέλη. Η εταιρεία υποστήριξε ότι η ΤΝ κινείται πλέον ταχύτερα από τα τρέχοντα συστήματα χάραξης πολιτικής. Επίσης δήλωσε ότι οι κυβερνήσεις χρειάζονται εξουσία για να αποκλείουν ή να αποτρέπουν επικίνδυνες αναπτύξεις μοντέλων.
Στο πλαίσιο του σχεδίου, οι αστικές κυρώσεις θα συνδέονται με τα παγκόσμια ετήσια έσοδα. Οι επαναλαμβανόμενες παραβάσεις θα επιφέρουν υψηλότερες κυρώσεις, σύμφωνα με το προτεινόμενο πλαίσιο. Το πλαίσιο ζητά επίσης από τους προγραμματιστές αιχμής να δοκιμάζουν τα μοντέλα πριν από την κυκλοφορία. Οι προγραμματιστές θα δημοσιεύουν περιλήψεις, πλαίσια ασφάλειας και κάρτες συστήματος για ισχυρά συστήματα ΤΝ.
Ανεξάρτητοι αξιολογητές θα ελέγχουν τις δοκιμές μοντέλων και τις εκθέσεις κινδύνου. Η Anthropic θέλει επίσης οι προγραμματιστές να διατηρούν ισχυρά προγράμματα ασφαλείας για τα βάρη μοντέλων και τα συστήματα εκπαίδευσης. Η πρόταση υποστηρίζει νόμους διαφάνειας σε πολιτείες όπως η Καλιφόρνια και η Νέα Υόρκη. Ωστόσο, η εταιρεία υποστήριξε ότι η δημόσια αποκάλυψη από μόνη της δεν ανταποκρίνεται πλέον στην ταχύτητα ανάπτυξης της ΤΝ.
Οι προτεινόμενοι κανόνες θα ισχύουν μόνο για τα πιο προηγμένα συστήματα ΤΝ. Η Anthropic όρισε το κατώφλι σε μοντέλα που εκπαιδεύτηκαν με άνω από 10²⁵ πράξεις κινητής υποδιαστολής. Το πλαίσιο θα καλύπτει επίσης εταιρείες με έσοδα άνω των 500 εκατομμυρίων δολαρίων από δραστηριότητες σχετικές με την ΤΝ. Επίσης θα αφορά εταιρείες που δαπανούν άνω του 1 δισεκατομμυρίου δολαρίων σε έρευνα και ανάπτυξη ΤΝ.
Η Anthropic ανέφερε τέσσερις κύριους τομείς κινδύνου στην πρόταση. Αυτοί περιλαμβάνουν βιολογικό κίνδυνο, κυβερνοκίνδυνο, απώλεια ελέγχου και αυτοματοποιημένη έρευνα ΤΝ. Για τον βιολογικό κίνδυνο, η εταιρεία προειδοποίησε ότι ανασφαλή συστήματα θα μπορούσαν να βοηθήσουν επιτιθέμενους να αναπτύξουν επιβλαβείς ιούς. Επίσης σημείωσε ότι παρόμοια εργαλεία ΤΝ μπορούν να υποστηρίξουν την ανακάλυψη φαρμάκων.
Για τον κυβερνοκίνδυνο, τα μοντέλα αιχμής μπορούν να εντοπίσουν σοβαρές ευπάθειες λογισμικού σε μεγάλη κλίμακα. Η Anthropic δήλωσε ότι αυτές οι δυνατότητες εγείρουν ανησυχίες για νοσοκομεία, ενεργειακά δίκτυα και άλλα βασικά συστήματα. Η εταιρεία επίσης ανέδειξε κινδύνους από συστήματα που ενεργούν εκτός του ελέγχου του προγραμματιστή. Η αυτοματοποιημένη έρευνα ΤΝ θα μπορούσε να αυξήσει τους βιολογικούς, κυβερνητικούς και κινδύνους ελέγχου εάν αποτύχουν οι διασφαλίσεις.
Η Anthropic θέλει οι προγραμματιστές αιχμής να δημοσιεύουν τακτικές εκθέσεις κινδύνου. Αυτές οι εκθέσεις θα περιγράφουν τη συνολική στάση κινδύνου του προγραμματιστή και τις εργασίες ασφάλειας μοντέλων. Το πλαίσιο ζητά επίσης τουλάχιστον έναν αρμόδιο ανεξάρτητο αξιολογητή. Αυτός ο αξιολογητής θα ελέγχει τις αξιολογήσεις της εταιρείας και θα δημοσιεύει ευρήματα σχετικά με εκθέσεις κινδύνου μοντέλων.
Οι κυβερνήσεις και η βιομηχανία θα ορίσουν επίσης πρότυπα για αυτούς τους αξιολογητές. Η πρόταση αναφέρει ότι οι αξιολογητές χρειάζονται χρηματοδότηση και πρόσβαση σε μοντέλα αιχμής. Οι κανόνες ασφαλείας αποτελούν άλλο σημαντικό μέρος του πλαισίου. Οι προγραμματιστές θα προστατεύουν το πλήρες περιβάλλον ανάπτυξής τους από εξωτερικούς επιτιθέμενους και εσωτερικές απειλές.
Οι εταιρείες θα περιγράφουν δημοσίως τα προγράμματα ασφαλείας τους σε υψηλό επίπεδο. Θα μοιράζονται επίσης περισσότερες λεπτομέρειες με ορισμένη κυβερνητική υπηρεσία όταν ζητηθεί. Η Anthropic δήλωσε ότι οι υπεύθυνοι χάραξης πολιτικής θα μπορούσαν να ξεκινήσουν με ελαφρύτερους κανόνες και να τους προσαρμόσουν με την πάροδο του χρόνου. Το πλαίσιο αναφέρει ότι η ρύθμιση πρέπει να ακολουθεί τις δυνατότητες των μοντέλων και τα πρότυπα αξιολόγησης.
Το δεύτερο μέρος του πλαισίου εστιάζει στη δημόσια ανθεκτικότητα. Η Anthropic συνέστησε ισχυρότερο σχεδιασμό για βιολογικούς, κυβερνητικούς και κινδύνους ΤΝ που σχετίζονται με τον έλεγχο. Για τη βιολογία, η πρόταση περιλαμβάνει έλεγχο γονιδιακής σύνθεσης και βιοεπιτήρηση έγκαιρης προειδοποίησης. Αναφέρει επίσης αποθέματα προστατευτικού εξοπλισμού και εργαλεία για τη μείωση της αερογενούς μετάδοσης.
Για τον κυβερνοχώρο, το πλαίσιο ζητά ισχυρότερο λογισμικό διαδικτύου και υποστήριξη για φορείς εκμετάλλευσης κρίσιμων υποδομών. Συστήνει επίσης την αντικατάσταση παλαιών συστημάτων σε βασικές υποδομές. Οι κυβερνήσεις θα πρέπει επίσης να παρακολουθούν τις κυβερνοδυνατότητες αιχμής μέσω ειδικής λειτουργίας. Η Anthropic πρότεινε κοινή εργασία μεταξύ κυβέρνησης και βιομηχανίας σχετικά με τις διασφαλίσεις μοντέλων.
Η εταιρεία δήλωσε ότι η εργασία για κινδύνους απώλειας ελέγχου και αυτοματοποιημένης έρευνας παραμένει λιγότερο ανεπτυγμένη. Ζήτησε καλύτερα εργαλεία για τον εντοπισμό, την περιστολή ή τον τερματισμό ανασφαλών συστημάτων. Η Anthropic κάλεσε τους υπεύθυνους χάραξης πολιτικής να δράσουν καθώς οι δυνατότητες των μοντέλων συνεχίζουν να βελτιώνονται. Η εταιρεία δήλωσε ότι η διακυβέρνηση της ΤΝ πρέπει να συμβαδίζει με την τεχνολογία.


