Andrej Karpathy hat gerade... | JundeWu OKX Feed

Aufgeregt, das neue Repository: nanochat! (es ist eines der unkonventionellsten, die ich geschrieben habe). Im Gegensatz zu meinem früheren ähnlichen Repository nanoGPT, das nur das Pretraining abdeckte, ist nanochat eine minimale, von Grund auf neu entwickelte, vollständige Trainings-/Inference-Pipeline eines einfachen ChatGPT-Klons in einem einzigen, abhängigkeit-minimalen Code. Du startest eine Cloud-GPU-Box, führst ein einzelnes Skript aus und kannst in nur 4 Stunden mit deinem eigenen LLM über eine ChatGPT-ähnliche Weboberfläche sprechen. Es umfasst ~8.000 Zeilen meines Erachtens ziemlich sauberen Codes, um: - Den Tokenizer mit einer neuen Rust-Implementierung zu trainieren - Ein Transformer-LLM auf FineWeb vorzutrainieren und den CORE-Score über eine Reihe von Metriken zu bewerten - Midtrain auf Benutzer-Assistent-Gesprächen von SmolTalk, Multiple-Choice-Fragen, Werkzeugnutzung. - SFT, das Chat-Modell auf weltlichem Wissen Multiple-Choice (ARC-E/C, MMLU), Mathematik (GSM8K), Code (HumanEval) zu bewerten - Das Modell optional auf GSM8K mit "GRPO" zu verstärken - Effiziente Inferenz des Modells in einer Engine mit KV-Cache, einfache Vorbefüllung/Dekodierung, Werkzeugnutzung (Python-Interpreter in einer leichten Sandbox), über CLI oder ChatGPT-ähnliche WebUI mit ihm zu sprechen. - Einen einzigen Markdown-Bericht zu schreiben, der das Ganze zusammenfasst und gamifiziert. Selbst für nur ~$100 Kosten (~4 Stunden auf einem 8XH100-Knoten) kannst du einen kleinen ChatGPT-Klon trainieren, mit dem du ein bisschen sprechen kannst und der Geschichten/Poesie schreiben und einfache Fragen beantworten kann. Etwa ~12 Stunden übertrifft den GPT-2 CORE-Metrik. Wenn du weiter auf ~$1000 (~41,6 Stunden Training) skalierst, wird es schnell viel kohärenter und kann einfache Mathematik-/Code-Probleme lösen und Multiple-Choice-Tests ablegen. Zum Beispiel erreicht ein Modell der Tiefe 30, das 24 Stunden trainiert wurde (das entspricht etwa den FLOPs von GPT-3 Small 125M und 1/1000 von GPT-3), 40er Werte auf MMLU und 70er auf ARC-Easy, 20er auf GSM8K usw. Mein Ziel ist es, den vollständigen "starken Baseline"-Stack in ein kohärentes, minimales, lesbares, hackbares, maximal forkbares Repository zu integrieren. nanochat wird das Abschlussprojekt von LLM101n (das noch entwickelt wird) sein. Ich denke, es hat auch das Potenzial, sich zu einem Forschungsharnisch oder einem Benchmark zu entwickeln, ähnlich wie nanoGPT zuvor. Es ist bei weitem nicht fertig, abgestimmt oder optimiert (tatsächlich denke ich, dass es wahrscheinlich noch einiges an niedrig hängenden Früchten gibt), aber ich denke, es ist an einem Punkt, an dem das gesamte Gerüst gut genug ist, dass es auf GitHub hochgeladen werden kann, wo alle Teile davon verbessert werden können. Der Link zum Repository und eine detaillierte Anleitung zum nanochat-Speedrun sind in der Antwort.

4.633

Der Inhalt dieser Seite wird von Drittparteien bereitgestellt. Sofern nicht anders angegeben, ist OKX nicht der Autor der zitierten Artikel und erhebt keinen Anspruch auf das Urheberrecht an den Materialien. Die Inhalte dienen ausschließlich zu Informationszwecken und spiegeln nicht die Ansichten von OKX wider. Sie stellen keine Form der Empfehlung dar und sind weder als Anlageberatung noch als Aufforderung zum Kauf oder Verkauf digitaler Assets zu verstehen. Soweit generative KI zur Bereitstellung von Zusammenfassungen oder anderen Informationen eingesetzt wird, kann der dadurch erzeugte Inhalt ungenau oder widersprüchlich sein. Mehr Infos findest du im verlinkten Artikel. OKX haftet nicht für Inhalte, die auf Drittpartei-Websites gehostet werden. Digitale Assets, einschließlich Stablecoins und NFT, bergen ein hohes Risiko und können stark schwanken. Du solltest sorgfältig überlegen, ob der Handel mit oder das Halten von digitalen Assets angesichts deiner finanziellen Situation für dich geeignet ist.