U JºcGã@slUddlmZmZmZmZddlZddlmmZ ddlm Z gZeee d<ejjGdd„deƒƒZdS)é)ÚListÚDictÚOptionalÚTupleN)ÚTensorÚ__all__c@sbeZdZdeeeeeefeeeeeedœ dd„Zee ed œd d„Z ee edœd d„ZdS)Ú_FunctionalAdamWçü©ñÒMbP?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>ç{®Gáz„?F) ÚparamsÚlrÚbetasÚepsÚweight_decayÚamsgradÚmaximizeÚforeachÚ_allow_empty_param_listc Csd|kstd |¡ƒ‚d|ks,td |¡ƒ‚d|dkrDdksXntd |d¡ƒ‚d|dkrpdks„ntd |d¡ƒ‚d|ksštd |¡ƒ‚|||d|d|d œ|_||_||_||_tj t tj t ttj ffi¡|_t |ƒdkr| stdƒ‚d|i|_dS) NçzInvalid learning rate: {}zInvalid epsilon value: {}rgð?z%Invalid beta parameter at index 0: {}éz%Invalid beta parameter at index 1: {}zInvalid weight_decay value: {})rrÚbeta1Úbeta2rz%optimizer got an empty parameter listr )Ú ValueErrorÚformatÚdefaultsrrrÚtorchÚjitZannotaterrÚstrÚstateÚlenÚparam_group) Úselfr rrrrrrrr©r$úL/tmp/pip-unpacked-wheel-gikjz4vx/torch/distributed/optim/functional_adamw.pyÚ__init__s.û$z_FunctionalAdamW.__init__)ÚparamÚgradc CsLg}g}g}g}g}g}|dk r4| |¡| |¡||jkr¢i|j|<|j|} t d¡| d<tj|tjd| d<tj|tjd| d<|jr¢tj|tjd| d<|j|} | | d¡| | d¡|jrÜ| | d¡| | d¡t ¡Ptj |||||||j|j |jd|jd|jd |jd |jd|jdW5QRXdS) NrÚstep©Z memory_formatÚexp_avgÚ exp_avg_sqÚmax_exp_avg_sqrrrrr©rrrrrrrr) Úappendr rÚtensorÚ zeros_likeÚpreserve_formatrÚno_gradÚFÚadamwrrr) r#r'r(Úparams_with_gradÚgradsÚexp_avgsÚexp_avg_sqsÚmax_exp_avg_sqsÚstate_stepsr r$r$r%Ú step_param>sN óz_FunctionalAdamW.step_param)Ú gradientscCs¨|jd}g}g}g}g}g}g}t|ƒt|ƒkrXtddt|ƒ›ddt|ƒ›ƒ‚t|jd|ƒD]Ü\} } | dk rh| | ¡| | ¡| |jkrúi|j| <|j| }t d¡|d<tj| tj d|d <tj| tj d|d <|j rútj| tj d|d<|j| }| |d ¡| |d ¡|j r6| |d¡| |d¡qht ¡Ptj |||||||j |j|jd|jd |jd|jd|jd|jdW5QRXdS)Nr zEthe gradients passed in does not equal to the size of the parameters!zParams length: z. zGradients length: rr)r*r+r,r-rrrrrr.)r"r!rÚzipr/r rr0r1r2rr3r4r5rrr)r#r=r r6r7r8r9r:r;r'Zgradientr r$r$r%r)nsb ÿþÿ óz_FunctionalAdamW.stepN)r r rrFFFF)Ú__name__Ú __module__Ú__qualname__rrÚfloatrÚboolr&rr<r)r$r$r$r%rs*ö ö*0r)ÚtypingrrrrrZtorch.optim._functionalZoptimZ_functionalr4rrrÚ__annotations__rÚscriptÚobjectrr$r$r$r%Ús