AIDB Daily Papers
LLMの性能はモデルより設定次第:RTL生成におけるオープンソースLLMのハイパーパラメータ感度
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- オープンソースLLMを用いたRTL生成において、モデル選択よりも推論時のデコーディング設定が性能に大きく影響することを示した。
- 26のLLMと108通りのハイパーパラメータ設定を評価し、最良設定と最悪設定の差がモデル間の差の5倍に達することを明らかにした。
- 最適なハイパーパラメータ設定はベンチマーク間で転移せず、デフォルト設定での評価はモデル能力と設定効果を混同させることを発見した。
Abstract
Benchmarking of open-source LLMs for hardware design focuses on which LLMs to use, while treating inference-time decoding configuration as a secondary concern. This work shows that it matters more how an LLM is configured than which model is selected. Benchmarking 26 open-source LLMs on VerilogEval and RTLLM with synthesis-in-the-loop evaluation, the study first maps the current capability landscape and then conducts an extensive 108-configuration hyperparameter sweep on three prominent models. The sweep reveals absolute pass-rate gaps of up to 25.5% between the best and worst settings for the same LLM, which is 5x larger than the average spread observed across various model families under their respective default configurations. Ranking all configurations by Spearman's $ρ$ across the two benchmark suites yields near-zero correlation, demonstrating that optimal configurations do not transfer. These results show that benchmarking conducted under default hyperparameters confounds model capabilities with configuration effects. Realizing the full potential of open-source LLMs for RTL generation requires architecture and benchmark aware hyperparameter selection, as enabled by the proposed methodology.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: