Ollama benchmark Q2 2024 - Exoscale A40 - LLM Performance

Go back to list

Filter:

GPU model

Model

	eval_rate			prompt_eval_rate
	mean	min	std	mean	min	std
model
codegemma	73.6	72.8	1.2	222.3	220.9	1.9
codegemma:2b	158.5	140.7	28.4	315.0	261.9	75.2
codellama	97.3	96.5	1.1	268.0	250.9	43.7
codellama:13b	58.2	57.7	0.4	188.9	162.8	45.0
codellama:70b	13.3	13.3	0.0	61.0	61.0	0.1
deepseek-coder	251.6	251.2	0.6	649.0	647.1	2.8
deepseek-coder:33b	26.2	26.2	0.0	75.1	74.8	0.5
deepseek-coder:6.7b	100.0	99.9	0.2	249.7	249.0	0.9
dolphin-mixtral	52.4	52.4	0.0	142.9	142.9	0.0
gemma	77.5	76.5	0.8	222.6	218.2	2.0
gemma:2b	148.4	144.7	3.1	522.8	492.5	14.1
llama2	96.8	95.6	0.7	252.7	243.8	2.9
llama2-uncensored	99.7	97.3	2.4	327.2	325.0	1.3
llama2-uncensored:70b	13.3	13.3	0.0	56.8	56.8	0.0
llama2:13b	58.0	57.4	0.4	162.4	161.4	0.5
llama2:70b	13.3	13.1	0.1	43.5	40.2	1.0
llama3	80.3	78.9	0.7	202.0	191.5	4.7
llama3:70b	12.8	12.8	0.0	39.3	39.2	0.0
llava	95.3	95.1	0.3	223.1	222.7	0.6
llava:13b	58.5	57.8	1.0	170.6	170.6	0.1
llava:34b	25.0	25.0	0.1	79.7	79.1	0.8
mistral	92.0	90.6	0.8	222.8	221.8	0.6
mixtral	53.1	52.4	0.5	148.1	147.4	0.5
orca-mini	156.0	154.7	1.0	477.8	471.1	3.4
orca-mini:13b	57.6	57.4	0.4	184.7	182.8	2.7
orca-mini:70b	13.1	13.1	0.0	50.3	50.3	0.0
orca-mini:7b	95.3	94.9	0.6	289.2	288.7	0.6
phi3	124.1	121.1	1.8	439.8	434.7	3.5
qwen	103.1	102.4	0.9	309.9	304.4	7.8
qwen:0.5b	206.9	205.5	2.0	1042.5	1033.5	12.8
qwen:1.8b	162.4	152.8	8.3	599.4	577.5	19.1
qwen:14b	51.2	51.1	0.1	156.8	155.8	1.5
qwen:32b	24.7	24.6	0.0	73.9	73.9	0.0
qwen:72b	12.5	12.5	0.0	45.5	45.5	0.0
qwen:7b	81.2	81.0	0.3	242.9	242.8	0.0
vicuna	96.8	95.6	1.6	265.3	264.3	0.7
vicuna:13b	57.6	57.4	0.2	170.4	170.3	0.2
vicuna:33b	25.2	25.2	0.1	87.4	87.1	0.4
wizardlm2	91.0	90.7	0.3	233.6	232.2	0.7