一、先知其然 語言模型評測的重要性可以用一個簡單的比喻來理解:就像我們不能僅憑汽車的外觀和參數來判斷其性能一樣,我們也不能僅憑語言模型的參數數量和訓練數據量來評估其實際能力。我們需要通過系統的"路試",即各種評測方法來全面瞭解模型的真實表現。 同樣的,在我們工作中,如果我們需要為公司購買一台新的服務器,我們首先不會僅僅因為銷售員説“它很快”就下單,而是要求看性能測試報