Tổng quanOverview
V #37 John Schulman
Nhóm V · Tri thức & xã hội trong AI

John Schulman

AI, Education & Social Sciences · America 250 AI Pioneers #37

HỒ SƠ NGHIÊN CỨU — JOHN SCHULMAN


I. Khái quát nhân thân

John Schulman (sinh 1987 hoặc 1988) — nhà nghiên cứu trí tuệ nhân tạo người Mỹ, một trong 11 đồng sáng lập OpenAI (12/2015), kiến trúc sư chủ chốt của ChatGPT, và cha đẻ thuật toán Proximal Policy Optimization (PPO) — nền tảng huấn luyện RL hiện diện trong hầu hết các hệ thống AI lớn đang vận hành toàn cầu, kể cả ChatGPT và Claude. Schulman không thuộc nhóm lãnh đạo công chúng nổi bật (không có độ nhận diện truyền thông như Sam Altman hay Elon Musk), nhưng đóng vai trò kỹ thuật quyết định nhất trong việc biến các mô hình ngôn ngữ lớn thành sản phẩm tiêu dùng hàng tỉ người dùng mỗi ngày [wikipedia.org, techcrunch.com].

Quỹ đạo gần đây nhanh và đáng theo dõi: rời OpenAI tháng 8/2024 → Anthropic (5 tháng) → Thinking Machines Lab (từ tháng 2/2025, Chief Scientist), startup mới do cựu CTO OpenAI Mira Murati dẫn dắt [fortune.com, bloomberg.com].


II. Quá trình công tác / hoạt động

2015–2024: OpenAI (đồng sáng lập, gần 9 năm)

Tháng 12/2015 — chưa hoàn thành nghiên cứu sinh — Schulman tham gia nhóm 11 người sáng lập OpenAI cùng Sam Altman, Elon Musk, Ilya Sutskever, Greg Brockman và các đồng nghiệp khác. Altman và Musk giữ ghế đồng Chủ tịch; OpenAI thành lập dưới mô hình phi lợi nhuận với mục tiêu "thúc đẩy trí tuệ kỹ thuật số vì lợi ích nhân loại" [techcrunch.com 12/2015, wikipedia.org].

Tại OpenAI, Schulman lãnh đạo nhóm reinforcement learning (RL) — đơn vị thiết kế và triển khai quy trình huấn luyện RLHF (Reinforcement Learning from Human Feedback) đưa ChatGPT từ mô hình nghiên cứu sang sản phẩm phổ dụng (ra mắt tháng 11/2022). Schulman từ chối nhận toàn bộ công sức cá nhân: "Tôi được ghi nhận quá nhiều — đây là thành quả của cả nhóm" (Bloomberg, 2024).

Năm 2024, sau khi Jan Leike (cựu trưởng nhóm AI safety) rời đi, Schulman kiêm nhiệm dẫn dắt nhóm Alignment Science và là thành viên Ủy ban An toàn nội bộ OpenAI mới thành lập [techcrunch.com 08/2024].

Tháng 8/2024: Rời OpenAI → Anthropic

Ngày 5/8/2024, Schulman công bố trên X: "Quyết định này xuất phát từ mong muốn tập trung sâu hơn vào AI alignment và bắt đầu một chương mới trong sự nghiệp, nơi tôi có thể quay lại làm việc kỹ thuật trực tiếp." Ông xác nhận rõ không rời vì thiếu sự hỗ trợ từ lãnh đạo OpenAI. Với sự ra đi của Schulman và Brockman (nghỉ phép), chỉ còn 3 trong 11 đồng sáng lập ban đầu ở lại OpenAI: Altman, Brockman, và Wojciech Zaremba [reuters.com, bloomberg.com].

Thời gian tại Anthropic ngắn — khoảng 5 tháng — và không có thông tin công bố về sản phẩm hay đề tài nghiên cứu cụ thể trong giai đoạn này.

Tháng 2/2025 đến nay: Thinking Machines Lab (Chief Scientist)

Ngày 6/2/2025, Schulman xác nhận rời Anthropic. Ngày 7/2/2025, Fortune và TechCrunch đưa tin ông gia nhập startup mới của Mira Murati. Ngày 18/2/2025, Thinking Machines Lab ra mắt chính thức: Murati làm CEO, Schulman làm Chief Scientist, Barret Zoph (cựu VP Research OpenAI) làm CTO; đội ngũ 29 người, phần lớn từ OpenAI, Character AI và Google DeepMind [techcrunch.com 18/2/2025, bloomberg.com 18/2/2025].

Sứ mệnh công bố của Thinking Machines Lab: xây dựng hệ thống AI multimodal hỗ trợ "cộng tác người–máy", làm AI dễ hiểu, có thể tùy chỉnh, và "có khả năng chung rộng hơn" hiện tại; định hướng nghiên cứu mở (open science), thường xuyên công bố paper, code [techcrunch.com].


III. Học vấn & công trình

Nền tảng học thuật:
- Trung học: Great Neck South High School (New York). Thành viên đội tuyển US Physics Olympiad 2005 [wikipedia.org, aapt.org ref].
- Cử nhân: Vật lý, Caltech, 2010 [wikipedia.org].
- Tiến sĩ: Kỹ thuật điện và Khoa học máy tính (EECS), UC Berkeley, 2016. Người hướng dẫn: Giáo sư Pieter Abbeel. Luận án tập trung robotics và reinforcement learning — trong đó có công trình dạy robot buộc nút thắt (ứng dụng phẫu thuật) — đặt nền tảng cho các phương pháp huấn luyện AI thực hiện tác vụ phức tạp [cdss.berkeley.edu, linkedin/Jeremy Fiance post].

Công trình học thuật trọng yếu:

Proximal Policy Optimization (PPO), 2017 — được coi là đóng góp học thuật mang tính thời đại nhất. PPO là thuật toán policy gradient thế hệ mới, cho phép cập nhật nhiều epoch từ một tập dữ liệu mẫu, đơn giản hơn TRPO nhưng hiệu quả hơn và mạnh hơn trên nhiều loại bài toán benchmark. Tác giả: John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov — tất cả từ OpenAI. Bài báo đăng ArXiv 28/8/2017 (arxiv.org/pdf/1707.06347). PPO trở thành thuật toán RL được sử dụng rộng rãi nhất trong ngành, là xương sống của quá trình huấn luyện RLHF cho ChatGPT, Claude, Gemini, và hầu hết các LLM lớn hiện tại [arxiv.org, berkeley seminar transcript].

Trust Region Policy Optimization (TRPO) — tiền thân của PPO, phát triển tại Berkeley dưới sự hướng dẫn của Abbeel và đồng nghiệp [berkeley seminar transcript].

Reinforcement Learning from Human Feedback (RLHF) at scale — Schulman không phát minh RLHF từ đầu, nhưng là người tổ chức và triển khai RLHF ở quy mô sản xuất để tạo nên InstructGPT và ChatGPT. Đây là đột phá thực tế đưa LLM từ "thú vị về mặt nghiên cứu" thành công cụ người dùng phổ thông có thể sử dụng [linkedin/Jeremy Fiance, techcrunch.com, cdss.berkeley.edu].


IV. Hoạt động nổi bật 2024–2026

Tháng 5/2024 — Trả lời phỏng vấn Dwarkesh Podcast (15/5/2024), Schulman thảo luận chi tiết về post-training, RLHF, lộ trình AGI, và "dạy mô hình suy luận" — một trong số ít lần ông công khai quan điểm kỹ thuật sâu [dwarkeshpatel.com].

Tháng 8/2024 — Rời OpenAI, công bố chuyển sang Anthropic. Cùng thời điểm Brockman nghỉ phép. Làn sóng ra đi của các đồng sáng lập (Sutskever 5/2024, Karpathy 2/2024, Leike 5/2024) được truyền thông quốc tế bình luận rộng rãi như dấu hiệu chuyển giao thế hệ tại OpenAI [reuters.com, bloomberg.com 8/2024].

Tháng 2/2025 — Ra đi khỏi Anthropic sau 5 tháng. Gia nhập Thinking Machines Lab với tư cách Chief Scientist. Đây là lần đầu tiên Schulman giữ chức danh lãnh đạo cấp cao công khai tại một tổ chức (trước đó tại OpenAI ông được xem là nhà nghiên cứu cấp cao, không phải quản lý cấp điều hành).

Tháng 4/2025 — UC Berkeley thông báo Schulman nhận 2025 Mark Bingham Award for Excellence in Achievement by Young Alumni — giải thưởng dành cho cựu sinh viên tốt nghiệp trong 10 năm gần nhất có đóng góp nổi bật cho cộng đồng, quốc gia hoặc thế giới. Lễ trao giải tại Berkeley Charter Gala ngày 22/5/2025 [cdss.berkeley.edu, wikipedia.org].

Đến tháng 4/2026 — Thinking Machines Lab chưa phát hành mô hình hay sản phẩm công khai. Schulman và đội ngũ đang nghiên cứu và tuyển dụng. Tình trạng gây quỹ của startup (truyền thông đề cập mức ~1 tỉ USD) chưa được xác nhận chính thức [bloomberg.com 18/2/2025, inc.com].


V. Vị thế & quan điểm gần đây

Vị thế trong hệ sinh thái AI toàn cầu: Schulman là một trong khoảng 5–10 nhà nghiên cứu trên thế giới có thể được coi là đồng thiết kế kiến trúc huấn luyện của LLM thế hệ hiện tại. PPO là thuật toán sống trong hầu hết pipeline RLHF của các lab lớn; vai trò của ông trong ChatGPT không phải là "người xây chatbot" mà là "người giải quyết bài toán alignment trong sản xuất" — sự khác biệt có tầm quan trọng chiến lược.

Quan điểm về AI safety và alignment:
- Nhất quán ưu tiên AI alignment — đây là động lực khai báo cho cả hai lần chuyển việc (2024 và 2025).
- Tháng 5/2024 (Dwarkesh Podcast): Schulman thảo luận về "dạy mô hình suy luận theo từng bước", tầm quan trọng của "keeping humans in the loop", và lo ngại về các giai đoạn phát triển AI tiếp theo. Ông được nhìn nhận là ôn hòa hơn các nhà hoạt động an toàn AI (không cảnh báo tận thế), nhưng nhấn mạnh mạnh mẽ sự cần thiết phải hiểu các hệ thống AI trước khi phát triển thêm.
- Tại Thinking Machines Lab: nhà sáng lập và công ty tuyên bố cam kết "chia sẻ best practices, công bố code và dataset hỗ trợ nghiên cứu alignment bên ngoài" [techcrunch.com 18/2/2025].

Phong cách nghiên cứu và lãnh đạo: Được mô tả là nhà kỹ thuật sâu (deep technologist), ít xuất hiện công khai, ưa môi trường nghiên cứu hơn vai trò quản lý. Quyết định chuyển từ OpenAI (tổ chức lớn) sang Anthropic rồi sang một startup nhỏ phản ánh xu hướng tìm kiếm "hands-on technical work" và môi trường nghiên cứu thuần túy hơn [techcrunch.com, bloomberg.com].

Nhận định: Schulman thuộc lớp "kỹ sư kiến trúc sư thế hệ AI thứ nhất" — nhóm những người thực sự hiểu bên trong các hệ thống đang định hình thế giới. Vị trí Chief Scientist tại Thinking Machines Lab, kết hợp với lịch sử cộng tác với Mira Murati và Barret Zoph, cho thấy đây có thể là nỗ lực xây dựng trường phái nghiên cứu AI thứ ba bên cạnh OpenAI và Anthropic.


VI. Liên hệ với Việt Nam

Quan hệ trực tiếp: Chưa ghi nhận tiếp xúc trực tiếp nào giữa Schulman và cơ quan, tổ chức, hay cá nhân tại Việt Nam từ nguồn mở.

Ý nghĩa gián tiếp — ba kênh chính:

1. PPO trong nghiên cứu AI Việt Nam. PPO do Schulman phát minh đang được áp dụng tích cực trong nghiên cứu AI nội địa. Điển hình: bài báo "A PPO-Based DRL Approach for Scalable Communication in Civilian UAV Networks" của Chu Thi Minh Hue (Khoa Kỹ thuật phần mềm, FPT University, Hà Nội) và Nguyễn Minh Quý, đăng trên tạp chí Computers, Materials and Continua (CMC) tháng 3/2026 — ứng dụng PPO vào mạng UAV dân sự [techscience.com 3/2026]. RLHF — pipeline mà Schulman thiết kế cho ChatGPT — cũng đang là kỹ thuật được giới nghiên cứu và doanh nghiệp Việt Nam (bao gồm VinAI, FPT AI, Zalo AI) ứng dụng để fine-tune các mô hình ngôn ngữ tiếng Việt [mpbpo.com.vn].

2. Thinking Machines Lab và chiến lược "open science". Thinking Machines Lab tuyên bố sẽ thường xuyên công bố paper, code, và dataset — định hướng này, nếu thực hiện, sẽ tạo cơ hội tiếp cận công nghệ trực tiếp cho cộng đồng nghiên cứu Việt Nam mà không cần quan hệ song phương chính thức. Đây là kênh chính sách đáng theo dõi.

3. Hệ quả chính sách AI của Việt Nam. PPO và RLHF là công nghệ nền tảng không thể tách rời khỏi ChatGPT, Claude, và mọi trợ lý AI mà Việt Nam đang sử dụng, triển khai thí điểm hoặc đang đánh giá tích hợp vào hành chính công. Hiểu rõ vai trò Schulman giúp ta định vị đúng vị trí kỹ thuật của ông trong bức tranh phụ thuộc công nghệ AI quốc gia.


VII. Nhận định & kiến nghị hướng theo dõi

Nhận định tổng thể:

Schulman là nhân vật kỹ thuật có ảnh hưởng bền vững nhưng ít tiếng vang chính trị. Đóng góp của ông — PPO và kiến trúc RLHF sản xuất — không phải là tuyên bố tầm nhìn mà là giải pháp kỹ thuật đang vận hành trong các hệ thống mà Việt Nam tiếp xúc hàng ngày. Quỹ đạo Thinking Machines Lab đặc biệt đáng chú ý vì: (a) đội ngũ sáng lập có lý lịch kỹ thuật đặc biệt cao; (b) định hướng open science khác biệt với OpenAI/Anthropic; (c) Thinking Machines chưa có quan hệ địa chính trị phức tạp — còn là "tờ giấy trắng" từ góc độ ngoại giao khoa học.

Đáng lưu ý: MIT Technology Review đã xếp Schulman là Innovator năm 2018. Đến 2025 ông nhận giải trẻ của UC Berkeley. Chưa có giải thưởng quốc tế tầm Turing hay Nobel — nhưng cộng đồng kỹ thuật xếp ông ngang hàng những cái tên đó về ảnh hưởng thực chất.

Kiến nghị hướng theo dõi:

  1. Theo dõi sát hoạt động xuất bản và tuyển dụng của Thinking Machines Lab — đây là chỉ báo tốt nhất về hướng phát triển kỹ thuật tới đây.
  2. Đánh giá cơ hội Thinking Machines Lab tiếp cận cộng đồng nghiên cứu AI Việt Nam qua kênh học thuật (hội nghị, internship, dataset mở) trước khi startup này có quan hệ đối tác chiến lược với các chính phủ lớn.
  3. Chuẩn bị tài liệu nền về PPO/RLHF để phục vụ đàm phán tự chủ công nghệ AI — hiểu rõ "ai thiết kế cái gì" trong các hệ thống ta đang dùng là điều kiện cần cho bất kỳ chính sách AI có chủ quyền nào.
  4. Không cần tiếp cận ngay — Schulman không phải nhà lập chính sách, không có vai trò ngoại giao; tiếp cận qua kênh học thuật/khoa học phù hợp hơn kênh nhà nước.

VIII. Nguồn tham khảo + Những vấn đề chưa làm rõ

Nguồn tham khảo

  1. Wikipedia — John Schulman: https://wikipedia.org/wiki/John_Schulman
  2. TechCrunch (Kyle Wiggers, 6/8/2024) — OpenAI co-founder Schulman leaves for Anthropic: https://techcrunch.com/2024/08/05/openai-co-founder-leaves-for-anthropic
  3. Bloomberg (Rachel Metz & Shirin Ghaffary, 6/8/2024) — OpenAI Co-Founder John Schulman Departs for AI Rival Anthropic: https://www.bloomberg.com/news/articles/2024-08-06/openai-co-founder-john-schulman-departs-for-ai-rival-anthropic
  4. Reuters (6/8/2024) — OpenAI co-founder John Schulman leaves ChatGPT maker for rival Anthropic: https://www.reuters.com/technology/openai-co-founder-john-schulman-leaves-chatgpt-maker-rival-anthropic-2024-08-06/
  5. Fortune (Sharon Goldman, 6/2/2025) — OpenAI cofounder John Schulman is joining Mira Murati's startup after brief stint at Anthropic: https://fortune.com/2025/02/06/openai-john-schulman-mira-muratis-startup-anthropic/
  6. TechCrunch (Kyle Wiggers, 6/2/2025) — Report: OpenAI's ex-CTO, Mira Murati, has recruited OpenAI co-founder John Schulman: https://techcrunch.com/2025/02/06/report-openais-ex-cto-mira-murati-has-recruited-openai-co-founder-john-schulman
  7. TechCrunch (Kyle Wiggers, 18/2/2025) — Thinking Machines Lab is ex-OpenAI CTO Mira Murati's new startup: https://techcrunch.com/2025/02/18/thinking-machine-labs-is-ex-openai-cto-mira-muratis-new-startup/
  8. Bloomberg (Shirin Ghaffary, 18/2/2025) — Former OpenAI CTO Murati Unveils Plans for New AI Startup: https://www.bloomberg.com/news/articles/2025-02-18/former-openai-cto-murati-unveils-plans-for-new-ai-startup
  9. Inc. (Ben Sherry, 19/2/2025) — What to Know About Thinking Machines Lab: https://www.inc.com/ben-sherry/this-founder-left-openai-to-launch-a-competitor-it-aims-to-bring-ai-to-the-masses/91149485
  10. UC Berkeley CDSS (7/4/2025) — Ion Stoica and John Schulman recognized with UC Berkeley Achievement Awards: https://cdss.berkeley.edu/news/ion-stoica-and-john-schulman-recognized-uc-berkeley-achievement-awards-0
  11. ArXiv (Schulman et al., 28/8/2017) — Proximal Policy Optimization Algorithms: https://arxiv.org/pdf/1707.06347
  12. Dwarkesh Podcast (15/5/2024) — John Schulman: Reasoning, RLHF & Plan for 2027 AGI: https://www.dwarkeshpatel.com/p/john-schulman/
  13. KITRUM blog (13/5/2025) — How John Schulman Created OpenAI and What's Coming Next: https://kitrum.com/blog/the-inspiring-story-john-schulman-co-founder-of-openai/
  14. TechScience/CMC (Chu Thi Minh Hue & Nguyễn Minh Quý, 12/3/2026) — A PPO-Based DRL Approach for Scalable Communication in Civilian UAV Networks: https://www.techscience.com/cmc/v87n2/66587/html
  15. BPO.MP (2025) — Applying RLHF in AI Chatbot Training: https://www.mpbpo.com.vn/en/applying-rlhf-in-ai-chatbot-training/
  16. TechCrunch (Drew Olanoff, 11/12/2015) — Artificial Intelligence Nonprofit OpenAI Launches: https://techcrunch.com/2015/12/11/non-profit-openai-launches-with-backing-from-elon-musk-and-sam-altman/
  17. Yahoo Finance/Bloomberg (5/8/2024) — OpenAI Co-Founders Schulman and Brockman Step Back: https://finance.yahoo.com/news/openai-co-founders-schulman-brockman-010542796.html

Những vấn đề chưa làm rõ

  1. Chưa xác minh được từ nguồn mở: Năm sinh chính xác của Schulman — Wikipedia ghi "1987 hoặc 1988"; eboona.com ghi "tháng 12/1990" — ba nguồn không nhất quán, không có xác nhận chính thức.
  2. Chưa xác minh được từ nguồn mở: Tình trạng gây quỹ của Thinking Machines Lab — Bloomberg đề cập ~1 tỉ USD, nhưng công ty chưa xác nhận bất kỳ vòng huy động vốn nào tính đến 4/2026.
  3. Cần đối chiếu thêm: Vai trò kỹ thuật cụ thể của Schulman tại Anthropic trong 5 tháng (8/2024–2/2025) — không có paper, blog hay tuyên bố nào từ phía Anthropic hoặc Schulman về công việc đã thực hiện.
  4. Chưa xác minh được từ nguồn mở: Thinking Machines Lab chưa công bố mô hình hay sản phẩm nào tính đến tháng 4/2026 — không rõ tiến độ kỹ thuật nội bộ.
  5. Quan điểm chính thức của phía ta về Thinking Machines Lab chưa rõ — đây là startup chưa có quan hệ địa chính trị định hình; cần đánh giá sớm trước khi họ ký kết đối tác chiến lược với chính phủ nước ngoài.
  6. Chưa xác minh được từ nguồn mở: Schulman có quan hệ với bất kỳ tổ chức hay cá nhân Việt Nam nào không — tìm kiếm không ra bằng chứng, nhưng không thể khẳng định hoàn toàn không tồn tại.