tuv-iso-logo tuv-iso-27001-logo

Τεχνολογία. Google: H τεχνητή νοημοσύνη GEMINI και οι εξελίξεις – Κίνα: Σχεδιάζει να παράγει μαζικά ανθρωποειδή ρομπότ

Πριν έναν χρόνο η χρηματοδοτούμενη από τη «Microsoft» εταιρεία Τεχνητής Νοημοσύνης (ΤΝ) «OpenAI» ανακοίνωνε το ChatGPT, ένα διαλογικό ρομπότ στηριγμένο στο παραγωγικό Μεγάλο Γλωσσικό Μοντέλο ΤΝ GPT-3, προκαλώντας μεγάλη εντύπωση σε ειδικούς και μη, για την ποιότητα των απαντήσεων και του διαλόγου που παρείχε. Στο πλαίσιο του ανταγωνισμού για απόσπαση μεγαλύτερου κομματιού αγοράς και εκτοπισμό ή εξόντωση του αντιπάλου, η «Microsoft» στο διάστημα που πέρασε προχώρησε στην έκδοση 4 του GPT και ενσωμάτωσε το ChatGPT σε όλες τις δραστηριότητες και τα προϊόντα της, με πρωτεύοντα στόχο να «εκθρονίσει» την «Google» από την κυρίαρχη θέση της στις μηχανές αναζήτησης στο διαδίκτυο.

Η νέα εποχή για την ΤΝ που άνοιξε πέρυσι έκανε πριν λίγες μέρες ένα νέο, ενδεχομένως σημαντικό βήμα, εφόσον οι ισχυρισμοί της «Google» για το νέο πολυτροπικό μοντέλο ΤΝ Gemini (Δίδυμοι), που ανέπτυξε, αποδειχθούν βάσιμοι. Η «Google», που ήδη είχε πολυετή ιστορία στην έρευνα για την ΤΝ, από την πρώτη στιγμή κατάλαβε τον κίνδυνο από την αντίπαλό της και εφάρμοσε στα δικά της προϊόντα τις πιο έτοιμες μορφές ΤΝ που είχε αναπτύξει μέχρι τότε, χωρίς εντυπωσιακά αποτελέσματα. Ωστόσο, σε στενή συνεργασία με τη θυγατρική της, «Google DeepMind», συνέχισε την έρευνα και ανάπτυξη για κάτι που θα της έδινε ουσιαστικό πλεονέκτημα απέναντι στη «Microsoft». Το Gemini είναι το αποτέλεσμα αυτής της προσπάθειας.

Τρεις παραλλαγές

Σειρά υπερυπολογιστών (μία από πολλές) με επιταχυντές ΤΝ (Μονάδες Επεξεργασίας Τανυστών, γνωστές ως TPU) σε ένα από τα πολλά υπολογιστικά κέντρα της «Google». Σε αυτά τα συστήματα εκπαιδεύτηκε το μοντέλο Gemini και τέτοια συστήματα χρειάζεται για να αποδώσει στις πιο βαριές χρήσεις για τις οποίες προορίζεται

Το Gemini διαθέτει τρεις εκδοχές, έτσι ώστε να μπορεί να χρησιμοποιηθεί σε όλη την γκάμα των υπηρεσιών και προϊόντων που προσφέρει ο όμιλος «Alphabet», στον οποίο ανήκει η «Google». Η παραλλαγή Gemini Pro «τρέχει» ήδη στα υπολογιστικά κέντρα της «Google» και έχει υποκαταστήσει το προηγούμενο μοντέλο, το οποίο χρησιμοποιούσε το διαλογικό ρομπότ Bard. Σύμφωνα με την εταιρεία, το Gemini Pro είναι πιο γρήγορο και μπορεί να καταλαβαίνει και να ανταποκρίνεται σε πιο σύνθετα ερωτήματα και διάλογο. Η μεγάλη παραλλαγή της νέας ΤΝ, Gemini Ultra, θα είναι έτοιμη μέσα στο 2024 και θα είναι η ισχυρότερη απ’ όλες για χρήση από εταιρείες και ερευνητές.

Αντίθετα η τρίτη παραλλαγή, Gemini Nano, θα είναι αρκετά μικρή, ώστε να μπορεί να χρησιμοποιηθεί αυτόνομα στα κινητά τηλέφωνα της «Google» (μοντέλα της σειράς Pixel) χωρίς να χρειάζεται να επικοινωνεί μέσω διαδικτύου με τα υπολογιστικά κέντρα του μονοπωλίου. Αυτή η παραλλαγή θα είναι περιορισμένων δυνατοτήτων και θα μπορεί να ανταποκρίνεται στις ανάγκες ΤΝ για βελτιωμένη εμπειρία στη χρήση των κινητών τηλεφώνων. Ακόμα κι έτσι, η δυνατότητα αξιοποίησης αξιόλογης ΤΝ χωρίς τη μεσολάβηση των κεντρικών συστημάτων κάποιας εταιρείας είναι νέα και σημαντική εξέλιξη.

Σημειωτέων, και η «Samsung» έχει ανακοινώσει την ενσωμάτωση ΤΝ σε επόμενα κορυφαία τηλέφωνά της, χωρίς περαιτέρω διευκρινίσεις, ενώ δεν υπάρχει κάποια πληροφορία συνεργασίας της «Microsoft» με εταιρεία κατασκευής έξυπνων κινητών. Πριν λίγες μέρες ο επικεφαλής της εταιρείας, Μπραντ Σμιθ, επισκέφτηκε την Κίνα και είχε επαφές με κρατικούς παράγοντες και εταιρείες σχετικά με συνεργασίες στον τομέα της ΤΝ, χωρίς να δοθούν λεπτομέρειες για το αποτέλεσμα της επίσκεψης.

Νικητής σε τεστ

Το επόμενο διάστημα η «Google» σκοπεύει να ενσωματώσει το Gemini στη μηχανή αναζήτησής της, φυσικά στις διαφημιστικές της υπηρεσίες και στον περιηγητή ιστοσελίδων Chrome, όπως άλλωστε έχει κάνει ήδη η «Microsoft» με το ChatGPT σε ό,τι αφορά τις δικές της υπηρεσίες και τον Edge browser. Σε μερικές μέρες το Gemini θα γίνει προσβάσιμο ως υπηρεσία και στους προγραμματιστές εκτός «Google», για να μπορούν να ενσωματώσουν τη χρήση του σε εφαρμογές που θα αναπτύξουν.

Σύμφωνα με την «Google», το Gemini είναι ένα από τα μεγαλύτερα και πιο προηγμένα μοντέλα ΤΝ και σε δοκιμές της εκδοχής Ultra υποτίθεται ότι υπερτερεί λιγότερο ή περισσότερο του GhatGPT – ακόμα και της πιο προχωρημένης εκδοχής του, δηλαδή του GPT-4 – στα 30 από τα 32 τεστ απόδοσης της ΤΝ. Σύμφωνα με την «Google», το Gemini είναι η πρώτη ΤΝ που πετυχαίνει καλύτερη απόδοση από ανθρώπους ειδικούς, στο τεστ MMLU (που καλύπτει 57 θέματα Μαθηματικών, Φυσικής, Δικαίου, Ιατρικής, Ηθικής κ.λπ.), μία από τις πιο δημοφιλείς δοκιμές γνώσεων και δυνατοτήτων επίλυσης προβλημάτων από συστήματα ΤΝ. Συγκεκριμένα, το Gemini φέρεται να πέτυχε ποσοστό ορθών απαντήσεων 90%, έναντι 89,8% των ανθρώπων ειδικών. Την ακρίβεια των ισχυρισμών αυτών, βέβαια, θα μπορέσουν να διαπιστώσουν ανεξάρτητοι ερευνητές μόνο όταν το Gemini Ultra γίνει διαθέσιμο στο ευρύ κοινό.

Πολλαπλές αισθήσεις

Βασικό πλεονέκτημα του Gemini φαίνεται να είναι η εγγενής πολυτροπικότητα ή πολυαισθητηριακότητα, δηλαδή ότι δεν ενσωματώνει μόνο πληροφορίες κειμένου, αλλά εξαρχής και ενιαία με το κείμενο αξιοποιεί πληροφορίες εικόνας, ήχου και βίντεο. Αντίθετα, το GPT-4 χρησιμοποιεί αρθρώματα και γέφυρες, ώστε εκ των υστέρων να ενοποιήσει δυνατότητες που έχουν τα ειδικά μοντέλα της συνεργαζόμενης με τη «Microsoft» εταιρείας «OpenAI», όπως το DALL-E (εικόνα) και το Whisper (ήχος). Το Gemini μπορεί να συνδυάζει ερωτήματα, εντολές και δεδομένα που του παρουσιάζονται σε μορφή κειμένου, ήχου, εικόνας, βίντεο ή κώδικα προγραμματισμού, και να παράγει αποτέλεσμα που συνδυάζει όλες τις παραπάνω μορφές επικοινωνίας. Αν π.χ. του δοθεί το γραπτό ενός μαθητή σε διαγώνισμα Φυσικής, μπορεί να αναγνωρίσει την τυπωμένη εκφώνηση, τη χειρόγραφη απάντηση και το σχέδιο του μαθητή και να εντοπίσει τυχόν λάθη, εξηγώντας τη φύση του λάθους και ποια είναι η σωστή απάντηση. Μπορεί μέσα σε μία ώρα να ενημερώσει μια επιστημονική μελέτη με τα νέα στοιχεία που έχουν προκύψει τα τελευταία χρόνια, κάνοντας βιβλιογραφική έρευνα, συλλογή δεδομένων και ενσωμάτωσή τους, κάτι που σήμερα απαιτεί από ομάδα ανθρώπων να αφιερώσει βδομάδες ή και μήνες. Ωστόσο, και το Gemini πάσχει από τις «ψευδαισθήσεις» όλων των Μεγάλων Γλωσσικών Μοντέλων, νομίζοντας ότι γνωρίζει πράγματα που δεν γνωρίζει, ενώ είναι άγνωστο προς το παρόν αν μπορεί και αυτό να παρασυρθεί σε παράλογες, προκατειλημμένες ή γενικά μη αποδεκτές συμπεριφορές, όπως το ChatGPT.

Το Gemini είναι μια ΤΝ που μπορεί όχι μόνο να διαβάσει πληκτρολογημένο κείμενο, αλλά γενικά να δει (στατική και κινούμενη εικόνα) και να ακούσει. Οπως δήλωσε ο Ντέμις Χασάμπις, επικεφαλής της «DeepMind», στόχος είναι να αποκτήσει κι άλλες αισθήσεις, συγκεκριμένα της αφής και της κατάστασης κίνησης, ιδιαίτερα χρήσιμες και κρίσιμες για οποιοδήποτε ανθρωπόμορφο και γενικότερα κινούμενο ρομπότ. Οπως δήλωσε, «για πολύ καιρό θέλαμε να κατασκευάσουμε μια νέα γενιά μοντέλων ΤΝ, που θα είναι εμπνευσμένη από τον τρόπο με τον οποίο οι άνθρωποι καταλαβαίνουν και αλληλεπιδρούν με τον κόσμο».

AlphaCode 2

Η «Google» φαίνεται να αντιμετωπίζει την κατασκευή κώδικα προγραμματισμού ως μία από τις ισχυρότερες εφαρμογές της ΤΝ Gemini, καθώς σε αυτό έχει ενσωματωθεί το σύστημα παραγωγής κώδικα AlphaCode 2, που σε διαγωνισμούς έχει αποδειχθεί καλύτερο από το 85% των ανθρώπων συμμετεχόντων, έναντι ποσοστού 50% του αρχικού AlphaCode. Το Gemini εκπαιδεύτηκε χρησιμοποιώντας τις TPU (Μονάδες Επεξεργασίας Τανυστών) της ίδιας της «Google», ειδικότερα με τη νέα έκδοση TPU v5p, γι’ αυτό και σύμφωνα με την εταιρεία είναι και πιο γρήγορο και πιο οικονομικό από πλευράς κατανάλωσης πόρων συγκριτικά με τα προηγούμενα, λιγότερο ισχυρά Μεγάλα Γλωσσικά Μοντέλα της, όπως το PaLM.

Ο επικεφαλής της «Alphabet», Σούνταρ Πιτσάι, και ο Ντέμις Χασάμπις της «DeepMind» ισχυρίζονται ότι προχωρούν με προσεκτικά βήματα προς τον απώτερο στόχο τους, τη Γενική Τεχνητή Νοημοσύνη (ΓΤΝ), έναν όρο που χρησιμοποιείται για να περιγράψει μια μελλοντική μορφή ΤΝ που θα μπορεί να αυτοβελτιώνεται, θα είναι πιο έξυπνη από τον άνθρωπο και θα έχει καθοριστική επίδραση στην ανθρωπότητα. Ο Πιτσάι, που θεωρεί ότι η ΤΝ θα έχει μεγαλύτερη επίδραση στην εξέλιξη του ανθρώπου και της κοινωνίας από την εφεύρεση του κινητού τηλεφώνου και του διαδικτύου, αξιολογεί ως σημαντικό να δοθεί βάρος στο ζήτημα της ασφάλειας, καθώς η ΤΝ γίνεται όλο και πιο ικανή. Ωστόσο, τα ίδια τα κριτήρια ασφάλειας και η εφαρμογή τους επαφίενται αποκλειστικά στους εταιρικούς ομίλους και οι υπόλοιποι μαθαίνουν ή νιώθουν τις συνέπειες εκ των υστέρων, όταν πια το νέο προϊόν ΤΝ μπαίνει στην παραγωγή. Ο Χασάμπις παραδέχεται πως ανάμεσα στους κινδύνους που έχουν τέτοια συστήματα ΤΝ είναι ότι μπορεί να παρουσιάσουν ευπάθειες που κανείς δεν είχε προβλέψει. Στην περίπτωση του Gemini, κινδύνους εξαιτίας της πολυτροπικότητας, π.χ. συνδυασμούς απαντήσεων με λόγο και εικόνα που χωριστά είναι ανώδυνα, αλλά μαζί είναι «τοξικά».

Εκείνο που δεν πρέπει να διαφεύγει από κανέναν είναι ότι τη ΓΤΝ αυτοί που έχουν κάποια πιθανότητα να την κατασκευάσουν, δηλαδή τεράστια μονοπώλια ή οι συλλογικοί καπιταλιστές, τα κράτη, την αντιμετωπίζουν ως όπλο κυριαρχίας, οικονομικό ή κυριολεκτικό, σαν αυτά που χρησιμοποιούνται στο πεδίο της μάχης. Η διαφορά είναι ότι η ΓΤΝ, αν και όταν γίνει πραγματικότητα, ίσως δεν θα είναι μόνο πανίσχυρο όπλο για χρήση από τον δημιουργό της, αλλά – όπως φοβούνται πολλοί – και στρατιώτης με δική του αντίληψη των πραγμάτων…

Επιμέλεια:
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγές:

-Ριζοσπάστης

-https://blog.google, https://deepmind.google, https://storage.googleapis.com

Κίνα: Σχεδιάζει να παράγει μαζικά ανθρωποειδή ρομπότ που μπορούν να «αναμορφώσουν τον κόσμο» μέσα σε δύο χρόνια

Η Κίνα αποκάλυψε φιλόδοξα σχέδια για μαζική παραγωγή ανθρωποειδών ρομπότ, τα οποία πιστεύει ότι θα είναι τόσο «ανατρεπτικά» όσο τα smartphones.

Σε ένα φιλόδοξο σχέδιο που δημοσιεύθηκε την περασμένη εβδομάδα, το υπουργείο Βιομηχανίας και Τεχνολογίας Πληροφορικής (MIIT) της Κίνας είπε ότι τα ρομπότ «θα αναδιαμορφώσουν τον κόσμο».

Το MIIT πιστεύει ότι μέχρι το 2025 το προϊόν θα έχει φτάσει σε «προηγμένο επίπεδο» και θα παράγεται μαζικά, ενώ έκανε τις δηλώσεις αυτές στους αναπτυξιακούς στόχους που παρατίθενται στον οδικό χάρτη της.

«Αναμένεται να υπάρξουν ανατρεπτικά προϊόντα μετά τους υπολογιστές, τα smartphones και τα νέα ενεργειακά οχήματα», προστίθεται σε μετάφραση του εγγράφου.

Σύμφωνα με το Bloomberg, το έγγραφο ήταν «μικρό σε λεπτομέρειες αλλά μεγάλο σε φιλοδοξίες». Ωστόσο, ορισμένες κινεζικές εταιρείες φαίνεται ότι αυξάνουν τις φιλοδοξίες σχετικά με την εξέλιξη των ρομπότ στη χώρα.

Ετοιμάζονται ρομπότ που θα μιμούνται τις ανθρώπινες κινήσεις

Για παράδειγμα, η κινεζική νεοσύστατη εταιρεία Fourier Intelligence δήλωσε ότι θα ξεκινήσει τη μαζική παραγωγή του ανθρωποειδούς ρομπότ GR-1 μέχρι το τέλος του τρέχοντος έτους, ανέφερε η South China Morning Post. Η εταιρεία, με έδρα τη Σαγκάη, δήλωσε στο δημοσίευμα ότι φιλοδοξεί να παραδώσει χιλιάδες ρομπότ το 2024, τα οποία μπορούν να κινούνται με ταχύτητα πέντε χιλιομέτρων την ώρα και να μεταφέρουν 50 κιλά.

Δεν είναι ο μόνος κατασκευαστής ανθρωποειδών ρομπότ που εντείνει τις προσπάθειές του με στόχο τη μαζική παραγωγή. Η αμερικανική Agility Robotics ανοίγει ένα εργοστάσιο ρομπότ στο Όρεγκον φέτος, όπου σχεδιάζει να κατασκευάσει εκατοντάδες από τα δίποδα ρομπότ της που μπορούν να μιμηθούν τις ανθρώπινες κινήσεις, όπως το περπάτημα, το σκύψιμο και τη μεταφορά πακέτων.

Η Amazon δοκιμάζει το ρομπότ Digit της Agility Robotics σε ένα κέντρο έρευνας και ανάπτυξης κοντά στο Σιάτλ ώστε να δει πώς μπορεί να χρησιμοποιηθεί για την αυτοματοποίηση των αποθηκών της, αλλά είναι μόνο σε πιλοτικό στάδιο.

Ο διευθύνων σύμβουλος της Agility Robotics, Damion Shelton, δήλωσε στο Insider: «Βραχυπρόθεσμα, αναμένουμε μια αργή και σταθερή αύξηση των εφαρμογών του Digit». Και πρόσθεσε: «Πιστεύουμε ότι τελικά θα υπάρξει μαζική ενσωμάτωση, αλλά τα δίποδα ρομπότ εξακολουθούν να αποτελούν μια σχετικά νέα εξέλιξη».

Ακόμη και η Tesla αναπτύσσει τα δικά της ανθρωποειδή ρομπότ, με την ονομασία Optimus ή Tesla Bot, όπως αποκάλυψε ο Elon Musk το 2021. Ωστόσο, έχει ακόμα πολύ δρόμο να διανύσει μέχρι να είναι έτοιμο για μαζική παραγωγή, καθώς ο Musk δήλωσε σε εκδήλωση της Tesla AI Day το 2022 ότι ήταν η πρώτη φορά που το πρωτότυπο περπάτησε «χωρίς καμία υποστήριξη» όταν ανέβηκε στη σκηνή.

 

Πηγή: https://www.iefimerida.gr/tehnologia/kina-maziki-paragogi-anthropoeidon-rompot >

 

 

Β

Ψηφιακός Βοηθός Ε.Ε.Α.
Έναρξη συνομιλίας