Baichuan 2: Open Large-scale Language Models

About

Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.

Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Ce Bian, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong, Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, JunTao Dai, Kun Fang, Lei Su, Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu• 2023

Related benchmarks

Task	Dataset	Result
Language Modeling	WikiText2	Perplexity13.25	3785
Commonsense Reasoning	HellaSwag	Accuracy67.18	1896
Commonsense Reasoning	WinoGrande	--	1442
Mathematical Reasoning	GSM8K	Accuracy56	1398
Code Generation	HumanEval	Pass@120.7	1043
Mathematical Reasoning	MATH	Accuracy10.1	882
Multi-task Language Understanding	MMLU	Accuracy55	881
Instruction Following	IFEval	--	836
Reasoning	BBH	Accuracy49	726
Jailbreak Attack	HarmBench	--	557

Showing 10 of 127 rows

...

Other info

Follow for update

@wizwand_team Discord