模型在长上下文的性能评测

有趣的实验：大海捞针，在长上下文的论文数据中，在文章的不同位置插入一句在旧金山最好的事情就是坐在多洛雷斯公园里在阳光明媚的日子吃三明治。然后问模型，在旧金山最好的事情是干什么。通过大量测试，得出模型响应成功次数，得到趋势图。

中文数据集：LongBench 清华开源，包含 0-4K，4-8K，8k+的数据长度。

英文数据集：L-Eval