https://152334h.github.io/blog/non-determinism-in-gpt-4/
It’s well-known at this point that GPT-4/GPT-3.5-turbo is non-deterministic, even at temperature=0.0. This is an odd behavior if you’re used to dense decoder-only models, where temp=0 should imply greedy sampling which should imply full determinism, because the logits for the next token should be a pure function of the input sequence & the model weights.
මුන් මේ කියන්නෙ. මෙතන තියෙන හැම කන්ඩිශන් එකක්ම එකක් පස්සෙ එකක් එන විදියට හැදුවත් එන උත්තරේ හරියටම එන උත්තරේ මොකද්ද කියල කියන්න බෑ කියන එක. තියරිටිකලි ඒක එහෙම වෙන්න බෑ කියල තමා හිතන්නෙ. ML ඉගෙන ගන්න හැටි ගැන ගොඩක් දේවල් දන්නෙ නැති නිසා අපි හිතන්නෙම නැති මගුලක් වෙන්නත් පුලුවන්.
It’s well-known at this point that GPT-4/GPT-3.5-turbo is non-deterministic, even at temperature=0.0. This is an odd behavior if you’re used to dense decoder-only models, where temp=0 should imply greedy sampling which should imply full determinism, because the logits for the next token should be a pure function of the input sequence & the model weights.
මුන් මේ කියන්නෙ. මෙතන තියෙන හැම කන්ඩිශන් එකක්ම එකක් පස්සෙ එකක් එන විදියට හැදුවත් එන උත්තරේ හරියටම එන උත්තරේ මොකද්ද කියල කියන්න බෑ කියන එක. තියරිටිකලි ඒක එහෙම වෙන්න බෑ කියල තමා හිතන්නෙ. ML ඉගෙන ගන්න හැටි ගැන ගොඩක් දේවල් දන්නෙ නැති නිසා අපි හිතන්නෙම නැති මගුලක් වෙන්නත් පුලුවන්.
Last edited:

