Gemini. H Google ανακοίνωσε τον ανταγωνιστή του GPT-4

    H Google ανακοίνωσε τον ανταγωνιστή του GPT-4 της OpenAI με την ονομασία Gemini 1.0. Το νέο μεγάλο γλωσσικό μοντέλο θα τροφοδοτεί το chatbot Bard.

    Google Gemini

    Η Google είχε παρουσιάσει το Gemini 1.0 στο συνέδριο Google I/O 2023 και πρόσφατα, η εταιρεία έκανε γνωστό ότι πρόκειται να το λανσάρει σε τρία μεγέθη ενώ βεβαίως θα αποτελέσει τη κινητήριο δύναμη πίσω από το γνωστό chatbot, Bard.

     

    Το Gemini 1.0 της Google, που αποτελεί προϊόν συνεργασίας των τμημάτων DeepMind και Google Research θα μπορούσε να αλλάξει τον τρόπο με τον οποίο χρησιμοποιούμε την τεχνητή νοημοσύνη και η εταιρεία αποκάλυψε πολλές -και ιδιαίτερα εντυπωσιακές- λεπτομέρειες σχετικά με τον τρόπο λειτουργίας του νέου γλωσσικού μοντέλου.

     

    Σύμφωνα με τη Google, το Gemini 1.0 είναι το ικανότερο γενικό γλωσσικό μοντέλο που είναι διαθέσιμο και σχεδιάστηκε από την αρχή για να είναι πολυτροπικό (multimodal), κάτι που σημαίνει ότι μπορεί να γενικεύει και να κατανοεί απρόσκοπτα καθώς και να λειτουργεί και να συνδυάζει διαφορετικούς τύπους πληροφοριών, όπως κείμενο, κώδικα, ήχο, εικόνα και βίντεο.

     

    Το Gemini είναι επίσης το πιο ευέλικτο μοντέλο της εταιρείας και είναι ικανό να λειτουργεί αποτελεσματικά σε όλα τα συστήματα, από κέντρα δεδομένων μέχρι φορητές συσκευές (π.χ. κινητά). Σύμφωνα με την εταιρεία, οι υπερσύγχρονες δυνατότητες του πρόκειται να βελτιώσουν σημαντικά τον τρόπο με τον οποίο οι developers και οι εταιρικοί πελάτες θα δημιουργούν και θα κλιμακώνουν με τη χρήση της Τεχνητής Νοημοσύνης (AI).

     

    Το Gemini 1.0, η πρώτη έκδοση είναι διαθέσιμη σε τρία διαφορετικά μεγέθη για διαφορετικές περιπτώσεις χρήσης:

     

    Gemini Ultra - το μεγαλύτερο και πιο ικανό μοντέλο για εξαιρετικά πολύπλοκες εργασίες.
    Gemini Pro - το καλύτερο μοντέλο για κλιμάκωση σε ένα ευρύ φάσμα εργασιών.
    Gemini Nano - το πιο αποδοτικό μοντέλο για εργασίες εντός συσκευής (on-device).

     

     Η Google δοκίμασε τα παραπάνω μοντέλα Gemini και αξιολόγησε την απόδοσή τους σε μια μεγάλη ποικιλία εργασιών. Από την κατανόηση φυσικών εικόνων, ήχου και βίντεο έως τη μαθηματική συλλογιστική, οι επιδόσεις του Gemini Ultra σύμφωνα με την εταιρεία ξεπερνούν τα τρέχοντα αποτελέσματα της τεχνολογίας σε 30 από τα 32 ευρέως χρησιμοποιούμενα ακαδημαϊκά κριτήρια αναφοράς που σχετίζονται με την έρευνα και την ανάπτυξη μεγάλων γλωσσικών μοντέλων (LLM). Με βαθμολογία 90,0%, το Gemini Ultra είναι το πρώτο μοντέλο που ξεπερνά τους ανθρώπινους εμπειρογνώμονες στο λεγόμενο «MMLU» (Massive Multitask Language Understanding) που χρησιμοποιεί έναν συνδυασμό 57 θεμάτων όπως μαθηματικά, φυσική, ιστορία, δίκαιο, ιατρική και ηθική για τον έλεγχο τόσο της γνώσης όσο και των ικανοτήτων επίλυσης προβλημάτων.

     

    Google Gemini

     

    Η νέα συγκριτική προσέγγιση της εταιρείας στο MMLU επιτρέπει στο Gemini να χρησιμοποιεί τις ικανότητες συλλογισμού του για να σκέφτεται προσεκτικότερα πριν απαντήσει σε δύσκολες ερωτήσεις, οδηγώντας σε σημαντικές βελτιώσεις σε σύγκριση με τη χρήση μόνο της πρώτης του εντύπωσης.

     

    Google Gemini

     

    Μέχρι τώρα, η συνήθης προσέγγιση για τη δημιουργία πολυτροπικών (multimodal) μοντέλων περιλάμβανε την εκπαίδευση ξεχωριστών στοιχείων για διαφορετικές λειτουργίες και στη συνέχεια τη «συρραφή» τους. Τέτοια μοντέλα μπορεί να είναι καλά στην εκτέλεση ορισμένων εργασιών, όπως η περιγραφή εικόνων, ωστόσο δεν τα καταφέρουν καλά με την περισσότερο εννοιολογική και σύνθετη συλλογιστική. Το Gemini ωστόσο σχεδιάστηκε από την αρχή να είναι πολυτροπικό και προ-εκπαιδευμένο σε διαφορετικές λειτουργίες. Στη συνέχεια, η Google το συντόνισε ακόμα περισσότερο με πρόσθετα πολυτροπικά δεδομένα για να βελτιώσει περαιτέρω την αποτελεσματικότητά του. Έτσι, το Gemini μπορεί και κατανοεί και συλλογίζεται απρόσκοπτα όλα τα είδη εισόδου από την αρχή και μάλιστα πολύ καλύτερα από τα υπάρχοντα πολυτροπικά μοντέλα με τις δυνατότητές του να είναι κορυφαίες σχεδόν σε κάθε τομέα.

     

    Οι εξελιγμένες δυνατότητες πολυτροπικής συλλογιστικής του Gemini 1.0 μπορούν να βοηθήσουν στην κατανόηση πολύπλοκων γραπτών και οπτικών πληροφοριών. Η αξιοσημείωτη ικανότητά του να εξάγει γνώση από εκατοντάδες χιλιάδες έγγραφα μέσω της ανάγνωσης, του φιλτραρίσματος και της κατανόησης πληροφοριών θα συμβάλει στην επίτευξη νέων ανακαλύψεων σε πολλούς τομείς, από την επιστήμη έως τα οικονομικά.

     

    Ολοκληρώνοντας, να αναφέρουμε ότι το Gemini 1.0 εκπαιδεύτηκε σε κλίμακα χρησιμοποιώντας την βελτιστοποιημένη για AI υποδομή της εταιρεία που βασίζεται στις τελευταίας γενιάς μονάδες επεξεργασίας tensor (Tensor Processing Units) με την ονομασία TPU v4 και TPU v5e