How do you fit Llama2-70b into V100? V100 is 16GB. Llama2-70b 4bit would require...

		cheptsov on Sept 21, 2023 \| parent \| context \| favorite \| on: Fine-tune your own Llama 2 to replace GPT-3.5/4 How do you fit Llama2-70b into V100? V100 is 16GB. Llama2-70b 4bit would require up to 40GB. Also, what do you use for inference to get 300+tokens/s?