Η Κίνα βάζει τέλος στη βασιλεία των ΗΠΑ στην τεχνητή νοημοσύνη και η Wall Street γίνεται κόκκινη .
Ο αμερικανικός κολοσσός της τεχνολογίας NVIDIA φτάνει αυτή τη στιγμή ζημιά 500 δισεκατομμυρίων.
Με την υποστήριξη του μοντέλου DeepSeek-V3, το οποίο οι δημιουργοί του περιγράφουν ως «ηγέτη μεταξύ μοντέλων ανοιχτού κώδικα και αντίπαλο των πιο προηγμένων κλειστών μοντέλων παγκοσμίως», η κινεζική startup ταρακουνά τις αγορές στην αρχή της εβδομάδας.
Αυτή τη Δευτέρα, το DeepSeek ξεπέρασε τον αντίπαλό του ChatGPT και έγινε η δωρεάν εφαρμογή με την υψηλότερη βαθμολογία που είναι διαθέσιμη στο Apple App Store στις ΗΠΑ. Μετά το εντυπωσιακό ντεμπούτο της, η κινεζική εταιρεία τάραξε τις παγκόσμιες τεχνολογικές μετοχές , εγείροντας σοβαρά ερωτήματα. Με τη Nvidia να υποχωρεί 16%, τη Microsoft να χάνει 3,8% και την TSMC να πέφτει 14%, οι επενδυτές αμφισβητούν εάν η τιμή της τεχνητής νοημοσύνης τρισεκατομμυρίων δολαρίων δικαιολογείται. Η εξαιρετικά χαμηλή τιμολόγηση του DeepSeek θα μπορούσε να προκαλέσει πόλεμο τιμών για την τεχνητή νοημοσύνη, ενώ οι ανησυχίες για την ασφάλεια μπορεί να περιορίσουν την υιοθέτηση της κινεζικής τεχνητής νοημοσύνης από τις ΗΠΑ.
Μερικές εξηγήσεις της αναταραχής στον ουρανό και την γη της ΤΝ, από δυο τύπους στο x: Τον αντιπρόεδρο της dropbox Morgan Brown και τον CEO της Perplexity Aravind Srinivas. Το γεγονός πως η κινέζικη εταιρεία προσφέρει ΄το μοντέλο της ανοιχτό για όλους - πέρα από το να αποκαλύπτει τα όρια της αποδοτικότητας του δυτικού εμμονικά ιδιοκτησιακού μοντέλου (το OpenAΙ, πόσο λίγο Open ήταν), δείχνει και μια αυτοπεποίθηση της Κίνας και τη διεκδίκηση ενός κεντρικού οργανωτικού ρόλου στη διάδοση της τεχνολογίας με όρους τελείως διαφορετικούς από ό,τι φαίνεται, σε σχέση με τη Silicon Valley. Παρά την αμερικάνικη παρεμπόδιση μάλιστα, που φαίνεται να έχει προκαλέσει μια τεχνολογική άνοιξη στην Κίνα, η οποία ήδη μάλλον υπερτερεί όλων στα περισσότερα κρίσιμα για το μέλλον τεχνολογικά πεδία...
Morgan Brown:
Τελικά είχα την ευκαιρία να ψάξω στο r1 του DeepSeek...
Επιτρέψτε μου να αναλύσω με απλά λόγια γιατί οι καινοτομίες AI της DeepSeek καίνε εγκεφάλους (και ενδεχομένως απειλούν την κεφαλαιοποίηση της Nvidia με $2T)...
0/ πρώτα απ 'όλα, αναγνώριση στον @doodlestein που έγραψε το must-read σχετικά με αυτό εδώ:
Όλοι οι λόγοι για τους οποίους η Nvidia θα δυσκολευτεί πολύ να ανταποκριθεί στις σημερινές υψηλές προσδοκίες της αγοράς.
1.Πρώτον, κάποια συμφραζόμενα: Αυτή τη στιγμή, η εκπαίδευση κορυφαίων μοντέλων τεχνητής νοημοσύνης είναι εξωφρενικά ακριβή. Οι OpenAI, Anthropic κ.λπ. ξοδεύουν 100 εκατ. δολάρια και πλέον μόνο για τις υπολογιστικές μονάδες. Χρειάζονται τεράστια κέντρα δεδομένων με χιλιάδες GPUs των $40K. Είναι σαν να χρειάζεται ένα ολόκληρο εργοστάσιο παραγωγής ενέργειας για να λειτουργήσει ένα εργοστάσιο.
2. Η DeepSeek απλά εμφανίστηκε και είπε: «LOL τι θα γινόταν αν το κάναμε αυτό με 5 εκατομμύρια δολάρια;» Και δεν το είπαν απλά - το έκαναν πραγματικά. Τα μοντέλα τους ανταγωνίζονται ή ξεπερνούν το GPT-4 και την Claude σε πολλές εργασίες. Ο κόσμος της Τεχνητής Νοημοσύνης συγκλονίστηκε.
3. Πώς; Επανεξέτασαν τα πάντα από την αρχή. Στην παραδοσιακή τεχνητή νοημοσύνη γράφεις κάθε αριθμό με 32 δεκαδικά ψηφία. Το DeepSeek σκέφτηκε «τι θα γινόταν αν χρησιμοποιούσαμε μόνο 8; Είναι και πάλι αρκετά ακριβές!» Μπουμ - η απαραίτητη μνήμη μειώνεται κατά 75%.
4. Στη συνέχεια, ακολουθεί το σύστημα «multi-token» τους. Η κανονική τεχνητή νοημοσύνη διαβάζει σαν μαθητής πρώτης δημοτικού: «Η... γάτα... κάθισε...» Το DeepSeek διαβάζει ολόκληρες φράσεις ταυτόχρονα. 2 φορές γρηγορότερα, με 90% μεγαλύτερη ακρίβεια. Όταν επεξεργάζεται κανείς δισεκατομμύρια λέξεις, αυτό μετράει.
5. Αλλά εδώ είναι το πραγματικά έξυπνο κομμάτι: Έφτιαξαν ένα «έμπειρο σύστημα». Αντί μια μαζική τεχνητή νοημοσύνη να προσπαθεί να γνωρίζει τα πάντα ( σαν να έχεις ένα άτομο να είναι γιατρός, δικηγόρος ΚΑΙ μηχανικός), έχουν εξειδικευμένους ειδικούς που ξυπνούν μόνο όταν χρειάζεται.
6. Στα παραδοσιακά μοντέλα και οι 1,8 τρισεκατομμύρια παράμετροι είναι ενεργές ΟΛΗ ΤΗΝ ΩΡΑ.
Στο DeepSeek; 671B συνολικά, αλλά μόνο 37B είναι ενεργές ταυτόχρονα. Είναι σαν να έχεις μια τεράστια ομάδα αλλά να καλείς μόνο τους ειδικούς που πραγματικά χρειάζεσαι για κάθε εργασία.
7. Τα αποτελέσματα είναι εντυπωσιακά:
- $100M → $5M
- Απαιτούμενες GPU: 100,000 → 2,000
- Κόστος API: 95% φθηνότερα
- Μπορεί να εκτελεστεί σε GPU παιχνιδιών αντί για υλισμικό κέντρου δεδομένων.
8.«Αλλά μισό λεπτό», μπορεί να πείτε, « σίγουρα υπάρχει κάποια παγίδα!» Αυτό είναι το τρελό σημείο - όλα είναι σε ανοιχτό κώδικα. Οποιοσδήποτε μπορεί να ελέγξει τη δουλειά τους. Ο κώδικας είναι δημόσιος. Τα τεχνικά κείμενα εξηγούν τα πάντα. Δεν πρόκειται για μαγεία, απλώς για απίστευτα έξυπνη σχεδίαση.
9. Γιατί έχει αυτό σημασία; Επειδή σπάει το μοντέλο «μόνο τεράστιες εταιρείες τεχνολογίας μπορούν να παίξουν στην τεχνητή νοημοσύνη». Δεν χρειάζεστε πλέον ένα κέντρο δεδομένων δισεκατομμυρίων δολαρίων. Μερικές καλές μονάδες επεξεργασίας γραφικών (GPU) μπορεί να αρκούν.
10. Για την Nvidia, αυτό είναι τρομακτικό. Ολόκληρο το επιχειρηματικό τους μοντέλο βασίζεται στην πώληση πανάκριβων GPU με περιθώρια κέρδους 90%. Αν ξαφνικά όλοι μπορούν να δημιουργούν τεχνητή νοημοσύνη με απλές GPU για παιχνίδια... καταλαβαίνετε το πρόβλημα.
11. Και το επιστέγασμα: Η DeepSeek το κατάφερε αυτό με μια ομάδα <200 ατόμων. Εν τω μεταξύ, η Meta έχει ομάδες στις οποίες η αποζημίωση και μόνο υπερβαίνει ολόκληρο τον προϋπολογισμό εκπαίδευσης της DeepSeek... και τα μοντέλα τους δεν είναι εξίσου καλά.
12. Αυτή είναι μια κλασική ιστορία επιχειρηματικής διατάραξης (disruption): Οι εδραιωμένοι παίκτες βελτιστοποιούν τις υπάρχουσες διαδικασίες, ενώ οι διαταράκτες επανεξετάζουν τη θεμελιώδη προσέγγιση. Η DeepSeek αναρωτήθηκε «τι θα γινόταν αν το κάναμε αυτό πιο έξυπνα αντί να πετάμε περισσότερο hardware πάνω του;».
13. Οι επιπτώσεις είναι τεράστιες:
- Η ανάπτυξη της ΤΝ γίνεται πιο προσιτή
- Ο ανταγωνισμός αυξάνεται δραματικά
- Οι «τάφροι» των μεγάλων εταιρειών τεχνολογίας μοιάζουν περισσότερο με λακκούβες
- Οι απαιτήσεις σε υλισμικό (και το κόστος του) πέφτουν κατακόρυφα
14. Φυσικά, γίγαντες όπως η OpenAI και η Anthropic δεν θα μείνουν άπραγοι. Πιθανότατα εφαρμόζουν ήδη αυτές τις καινοτομίες. Αλλά το τζίνι της αποδοτικότητας έχει βγει από το λυχνάρι- δεν υπάρχει επιστροφή στην προσέγγιση «απλά ρίχνουμε περισσότερες GPU».
15. Τελευταία σκέψη: Αυτή μοιάζει με μια από εκείνες τις στιγμές που θα θυμόμαστε αργότερα ως σημείο καμπής. Όπως όταν οι υπολογιστές έκαναν τα mainframes λιγότερο σημαντικά, ή όταν το cloud computing άλλαξε τα πάντα.
Η τεχνητή νοημοσύνη πρόκειται να γίνει πολύ πιο προσιτή και πολύ λιγότερο δαπανηρή. Το ερώτημα δεν είναι αν αυτό θα διαταράξει τους σημερινούς παίκτες, αλλά πόσο γρήγορα.
Ολα αυτά είναι διαθέσιμα σε ανοιχτό κώδικα. Μπορείτε κυριολεκτικά να δοκιμάσετε τα μοντέλα τους αυτή τη στιγμή. Ζούμε σε πρωτόγνωρες εποχές!
Aravind Srinivas - η εταιρεία του οποίου, η Perplexity (ΑΙ & αναζήτηση μαζί) ήδη ενσωμάτωσε το Deepseek στην εφαρμογή της:
Το DeepSeek R1 είναι ένα μοντέλο τεχνητής νοημοσύνης. Ένα μοντέλο τεχνητής νοημοσύνης είναι ένα πλήθος πινάκων με αριθμούς κινητής υποδιαστολής (που ονομάζονται βάρη), όπου τροφοδοτείτε μια είσοδο (μια ακολουθία χαρακτήρων ενσωματωμένη ως διάνυσμα αριθμών κινητής υποδιαστολής) και λαμβάνετε μια ακολουθία εξόδου.
Το DeepSeek είναι μια εφαρμογή για κινητά (το ίδιο όνομα με την εταιρεία) που σας επιτρέπει να αλληλεπιδράσετε με αυτό το μοντέλο τεχνητής νοημοσύνης μέσω μιας διεπαφής συνομιλίας. Όταν χρησιμοποιείτε την εφαρμογή τους, τα δεδομένα σας («prompts») πηγαίνουν στους διακομιστές τους.
Η εταιρεία έχει επίσης ανοίξει (ουσιαστικά ανέβασε στο διαδίκτυο όλους αυτούς τους πίνακες) τα βάρη του μοντέλου τεχνητής νοημοσύνης για δωρεάν χρήση από οποιονδήποτε.
Όταν μεταφορτώνετε αυτά τα βάρη και τα ανεβάζετε μόνοι σας στον δικό σας διακομιστή, μπορείτε να ελέγχετε την εξαγωγή συμπερασμάτων του μοντέλου τεχνητής νοημοσύνης και με αυτόν τον τρόπο κάθε αίτημα χρήστη που αποστέλλεται σε αυτόν τον νέο διακομιστή δεν πηγαίνει στην Κίνα, εφόσον οι διακομιστές φιλοξενούνται στις ΗΠΑ.
Τα βάρη είναι απλώς ένα μάτσο αριθμοί οργανωμένοι ως πίνακες που εκτελούνται με διαδοχικούς πολλαπλασιασμούς πινάκων - έτσι κανένας υπολογισμός δεν χρειάζεται να φύγει από τον διακομιστή προκειμένου να υπολογιστεί η επόμενη λέξη σε μια ακολουθία.
Με αυτόν τον τρόπο, κάποια άλλη εταιρεία μπορεί να κατεβάσει τα βάρη, να τα φιλοξενήσει στους διακομιστές της και να αφήσει τους χρήστες να αλληλεπιδράσουν με αυτά σε ένα frontend συνομιλίας και να προσαρμόσουν περαιτέρω το μοντέλο τεχνητής νοημοσύνης ώστε να κάνει περισσότερα πράγματα, όπως η αναζήτηση στο διαδίκτυο ή η χρήση εργαλείων όπως η εκτέλεση κώδικα, το wolfram κ.λπ.
Σχόλια
Δημοσίευση σχολίου