Κυριακή 22 Οκτωβρίου 2017

AlphaGo Zero

Μηχανική Μάθηση από το μηδέν

Η έρευνα τεχνητής νοημοσύνης(TN) έχει σημειώσει ταχεία πρόοδο σε μια ευρεία ποικιλία τομέων από την αναγνώριση ομιλίας και την ταξινόμηση της εικόνας στη γονιδιωματική και την ανακάλυψη φαρμάκων. Σε πολλές περιπτώσεις, πρόκειται για εξειδικευμένα συστήματα που εκμεταλλεύονται τεράστια ποσά ανθρώπινης τεχνογνωσίας και δεδομένων. Ωστόσο, για ορισμένα προβλήματα, αυτή η ανθρώπινη
γνώση μπορεί να είναι υπερβολικά δαπανηρή, υπερβολικά αναξιόπιστη . Ως αποτέλεσμα, μια μακρόχρονη φιλοδοξία της έρευνας TN είναι να παρακάμψει αυτό το βήμα, δημιουργώντας αλγορίθμους που επιτυγχάνουν υπεράνθρωπες επιδόσεις στους πιο δύσκολους τομείς χωρίς την επέμβαση του ανθρώπου. Σε μια  πρόσφατη δημοσίευσή στο περιοδικό Nature, επιδεικνύεται ένα σημαντικό βήμα προς την κατεύθυνση αυτού του στόχου.
Νέα έρευνα  εισάγει το AlphaGo Zero, την τελευταία εξέλιξη του AlphaGo, το πρώτο πρόγραμμα ηλεκτρονικών υπολογιστών για να νικήσουμε τον παγκόσμιο πρωταθλητή στο αρχαίο κινεζικό παιχνίδι Go. Το Zero είναι ακόμα πιο ισχυρό και είναι αναμφισβήτητα ο ισχυρότερος παίκτης Go στην ιστορία.

Είναι σε θέση να το κάνει αυτό χρησιμοποιώντας μια νέα μορφή ενισχυτικής μάθησης, στην οποία το AlphaGo Zero από μόνος του  δάσκαλος. Το σύστημα ξεκινάει με ένα νευρωνικό δίκτυο που δεν γνωρίζει τίποτα για το παιχνίδι του Go. Στη συνέχεια παίζει παιχνίδια εναντίον του, συνδυάζοντας το νευρικό δίκτυο με έναν ισχυρό αλγόριθμο αναζήτησης. Καθώς παίζει, το νευρωνικό δίκτυο συντονίζεται και ενημερώνεται για να προβλέψει τις κινήσεις, καθώς και τον τελικό νικητή των παιχνιδιών.

Αυτό το ενημερωμένο νευρωνικό δίκτυο στη συνέχεια ανασυνδυάζεται με τον αλγόριθμο αναζήτησης για να δημιουργήσει μια νέα, ισχυρότερη έκδοση του AlphaGo Zero και η διαδικασία ξεκινά ξανά. Σε κάθε επανάληψη, η απόδοση του συστήματος βελτιώνεται με ένα μικρό ποσό και η ποιότητα των παιχνιδιών αυτοπαιξίματος αυξάνεται, οδηγώντας σε όλο και πιο ακριβή νευρωνικά δίκτυα και σε όλο και ισχυρότερες εκδόσεις του AlphaGo Zero.

Αυτή η τεχνική είναι πιο ισχυρή από τις προηγούμενες εκδόσεις του AlphaGo επειδή δεν περιορίζεται πλέον από τα όρια της ανθρώπινης γνώσης. Αντ 'αυτού, είναι σε θέση να μάθει tabula rasa από τον ισχυρότερο παίκτη στον κόσμο: το ίδιο το AlphaGo.

Μετά από μόλις τρεις μέρες αυτοελέγχου, το AlphaGo Zero νίκησε την ήδη δημοσιευθείσα έκδοση του AlphaGo - η οποία είχε νικήσει τον 18χρονο παγκόσμιο πρωταθλητή Lee Sedol . Μετά από 40 ημέρες αυτοεκπαίδευσης, το AlphaGo Zero έγινε ακόμα ισχυρότερη, ξεπερνώντας την έκδοση του AlphaGo γνωστού ως Master, ο οποίος έχει νικήσει τους καλύτερους παίκτες του κόσμου και τον παγκόσμιο αριθμό Ke Jie.
Κατά τη διάρκεια των εκατομμυρίων παιχνιδιών AlphaGo vs AlphaGo, το σύστημα απέκτησε προοδευτικά το παιχνίδι Go από το μηδέν, συσσωρεύοντας χιλιάδες χρόνια ανθρώπινης γνώσης σε διάστημα μόλις λίγων ημερών. Το AlphaGo Zero ανακάλυψε επίσης νέες γνώσεις, αναπτύσσοντας ασυνήθιστες στρατηγικές και δημιουργικές νέες κινήσεις που αντέδρασαν και ξεπέρασαν τις καινοτόμες τεχνικές που έπαιξε στους αγώνες ενάντια στους Lee Sedol και Ke Jie.

Αυτές οι στιγμές δημιουργικότητας μας δίνουν την πεποίθηση ότι η ΤΝ θα αποτελέσει πολλαπλασιαστή για την ανθρώπινη ευστροφία, βοηθώντας μας στην αποστολή μας να λύσουμε μερικές από τις σημαντικότερες προκλήσεις που αντιμετωπίζει η ανθρωπότητα.
Ενώ είναι ακόμα πρώτες μέρες, το AlphaGo Zero αποτελεί ένα κρίσιμο βήμα προς την κατεύθυνση αυτού του στόχου. Αν παρόμοιες τεχνικές μπορούν να εφαρμοστούν σε άλλα δομημένα προβλήματα, όπως η δίπλωση πρωτεϊνών, η μείωση της κατανάλωσης ενέργειας ή η αναζήτηση επαναστατικών νέων υλικών, οι προκύπτουσες ανακαλύψεις έχουν τη δυνατότητα να επηρεάσουν θετικά την κοινωνία.

Η ΕΡΓΑΣΙΑ https://www.nature.com/