0 citations

OpenAI o1 System Card

arXiv (Cornell University)2024

Citations Over Time

OpenAI, :, Aaron Jaech, Adam Tauman Kalai, Adam Lerer, Adam J. Richardson, Ahmed El-Kishky, A.M. Low, Alec Helyar, Aleksander Mądry, Alex Beutel, Alex Carney, Alex Iftimie, Alex Karpenko, Alex Tachard Passos, Alexander Neitz, Alexander Prokofiev, Alexander Wei, Allison Tam, Ally Bennett, Ananya Kumar, André Saraiva, Andrea Vallone, Andrew Duberstein, Andrew Kondrich, А. S. Mishchenko, Andy Applebaum, Angela Jiang, Ashvin Nair, Barret Zoph, Behrooz Ghorbani, Ben Rossen, Benjamin Sokolowsky, Boaz Barak, Bob McGrew, Borys Minaiev, Botao Hao, Bowen Baker, Brandon Houghton, Brandon McKinzie, Brydon Eastman, Camillo Lugaresi, Cary Bassin, Charles J. Hudson, Chak Li, Charles de Bourcy, Chelsea Voss, Chen Shen, Chong Zhang, Christopher Koch, Chris Orsinger, Christopher Hesse, C. Fischer, C.Y. Chan, Dan Roberts, Daniel Kappler, Daniel Lévy, Daniel Selsam, David Dohan, David Farhi, David Mely, David Robinson, Dimitris Tsipras, Doug Li, Dragos Oprica, Eric Freeman, Eddie Zhang, Edmund Wong, Elizabeth Proehl, Eugene Cheung, Eric Mitchell, Eric Wallace, E. Matthew Ritter, Evan Mays, Fan Wang, Felipe Petroski Such, Filippo Raso, Florencia Leoni, Foivos Tsimpourlas, Francis Song, Fred von Lohmann, Freddie Sulit, Geoff Salmon, Giambattista Parascandolo, Gildas Chabot, Grace Zhao, Greg Brockman, Guillaume Leclerc, Hadi Salman, Hong Ling Bao, Hao Sheng, Hart Andrin, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian Osband, Ignasi Clavera Gilaberte, Ilge Akkaya, Ilya Kostrikov, Ilya Sutskever, Irina Kofman, Jakub Pachocki, James Lennon, J. Wei, John N. Harb, Jerry Twore, Jiacheng Feng, Jiahui Yu, Jiayi Weng, Jie Tang, J. S. Yu, Joaquin Quiñonero Candela, Joe Palermo, J. G. Parish, Johannes Heidecke, John Hallman, John‐Ross Rizzo, J. Gordon, Jonathan Uesato, Jonathan M. Ward, Joost Huizinga, Julie Wang, Kai Chen, Kai Xiao, Karan Singhal, Kim‐Lien Nguyen, Karl Cobbe, Kai Shi, Kathleen Wood, Kendra Rimbach, Keren Gu-Lemberg, Kevin Liu, Kevin Lu, Kevin Stone, Kevin Yu, Lama Ahmad, L. Yang, Chengxi Liu, Leon Maksin, Ling‐Jun Ho, Liam Fedus, Lilian Weng, Linden Li, Lindsay McCallum, Lindsey Held, Lorenz Kuhn, Lukas Kondraciuk, Łukasz Kaiser, Luke Metz, Michael L. Boyd, Maja Trębacz, Manas Joglekar, Mark Chen, Marko Tintor, M. Meyer, Matthew W. Jones, Matt Kaufer, Max Schwarzer, Meghan Shah, Mehmet Yatbaz, Melody Y. Guan, Mengyuan Xu, Mengyuan Yan, Mia Glaese, Mianna Chen, Matthias Lampe, M. Malek, Michele Wang, Michelle Fradin, Mike McClay, Mikhail Pavlov, Miles Wang, Mingxuan Wang, Mira Murati, Mo Bavarian, Mostafa Rohaninejad, Nat McAleese, Chowdhury, Neil, Chowdhury, Neil, Nick Ryder, Nikolas Tezak, Nicholas M. Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, P.‐H. Grace Chao, Paul Ashbourne, Pavel Izmailov, P. A. Zhokhov, Roger D. Dias, Rahul K. Arora, Randall Lin, R. M. C. Lopes, Raz Gaon, Reah Miyara, Reimar Leike, Raechan Hwang, Rhythm Garg, Robin Brown, Rodney James, Rui Shu, Ryan Cheu, Ronald T. Greene, Saachi Jain, S. Altman, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Santiago Mejia Hernandez, S. Baker, Steve McKinney, Shunxin Yan, S. J. Zhao, Sheng-Li Hu, Shibani Santurkar, Shraman Ray Chaudhuri, Shuyuan Zhang, Siyuan Fu, Spencer Papay, S. Z. Lin, Suchir Balaji, S. Sanjeev, Szymon Sidor, Tal Broda, Aidan Clark, Tao Wang, Tom P. Gordon, T. A. B. Sanders, Tejal Patwardhan, Thibault Sottiaux, Thomas Degry, Thomas Dimson, Tianhao Zheng, Timur Garipov, Tom Stasi, Trapit Bansal, Trevor Creech, T D Peterson, Tyna Eloundou, Valerie Qi, Vineet Kosaraju, V. Monaco, Vitchyr Pong, Vlad Fomenko, Weiyi Zheng, Wenda Zhou, Wes McCabe, Wojciech Zaremba, Yann Dubois, Yinghai Lu, Yining Chen, Y.-M. Cha, Yu Bai, Yangfan He, Yuchen Zhang, Yunyun Wang, Zheng Long Shao, Zhuohan Li

Abstract

The o1 model series is trained with large-scale reinforcement learning to reason using chain of thought. These advanced reasoning capabilities provide new avenues for improving the safety and robustness of our models. In particular, our models can reason about our safety policies in context when responding to potentially unsafe prompts, through deliberative alignment. This leads to state-of-the-art performance on certain benchmarks for risks such as generating illicit advice, choosing stereotyped responses, and succumbing to known jailbreaks. Training models to incorporate a chain of thought before answering has the potential to unlock substantial benefits, while also increasing potential risks that stem from heightened intelligence. Our results underscore the need for building robust alignment methods, extensively stress-testing their efficacy, and maintaining meticulous risk management protocols. This report outlines the safety work carried out for the OpenAI o1 and OpenAI o1-mini models, including safety evaluations, external red teaming, and Preparedness Framework evaluations.

Related Papers

→ ESKVS: efficient and secure approach for keyframes-based video summarization framework(2024)9 cited
Using DataGrid Control to Realize DataBase of Querying in VB6.0(2000)
Susquehanna Chorale Spring Concert "Roots and Wings"(2017)
→ DETERMINING QUALITY REQUIREMENTS AT THE UNIVERSITIES TO IMPROVE THE QUALITY OF EDUCATION(2018)
→ ИСПОЛЬЗОВAНИЕ ПОТЕНЦИAЛA СОЦИAЛЬНЫХ ПAРТНЕРОВ В ПОДГОТОВКЕ БУДУЩИХ ПЕДAГОГОВ(2024)