U <ºcÃjã@s@ddlmZddlZddlmZmZmZmZmZddl Z ddl m Z ddlmZm Z ddgZGd d „d ƒZddœeee jjje jeedœd d„ZGdd„deƒZdee ee ee ee ee ee eeeeeeeeeeeeeeeedœdd„Zee ee ee ee ee ee eeeeeeeeeeeeedœdd„Zee ee ee ee ee ee eeeeeeeeeeeeedœdd„Ze ¡ee ee ee ee ee ee eeee jfeee fdœdd„ƒZee ee ee ee ee ee eeeeeeeeeeeeeddœdd„ZdS)é)ÚdefaultdictN)ÚcastÚListÚOptionalÚDictÚTuple)ÚTensoré)Ú OptimizerÚ_use_grad_for_differentiableÚAdamÚadamc@sDeZdZUeed<eeefed<eddœdd„Zedœdd „ZdS) Ú_MultiDeviceReplicatorÚmain_tensorÚ_per_device_tensorsN)rÚreturncCs||_t|jƒ|i|_dS©N)rÚstrÚdevicer)Úselfr©rú4/tmp/pip-unpacked-wheel-gikjz4vx/torch/optim/adam.pyÚ__init__sz_MultiDeviceReplicator.__init__©rcCs4||jkr|j|S|jj|ddd}||j|<|S)NT)rÚnon_blockingÚcopy)rrÚto)rrÚtensorrrrÚgets z_MultiDeviceReplicator.get) Ú__name__Ú __module__Ú__qualname__rÚ__annotations__rrrrrrrrrs r©Úgrad_scaler)Ú optimizerr$rrc sl|dkrdS| |¡}‡fdd„| ¡Dƒ}t|ƒdks@tdƒ‚t ¡ttjt|ƒƒ}W5QRXt |ƒS)Ncsg|]}|jˆdd‘qS)T)r)r)Ú.0ÚfrrrÚ ,sz'_get_fp16AMP_params..rz5No inf checks were recorded in _check_inf_per_device.) Z_check_inf_per_deviceÚvaluesÚlenÚAssertionErrorÚtorchÚno_gradrrÚsumr)r%r$rZfound_inf_dictZ found_infsZfound_inf_combinedrrrÚ_get_fp16AMP_params s r/csbeZdZdZdddddddœeeeeeedœ‡fd d „Z‡fdd„Zeddd œdd„ƒZ ‡Z S)rauImplements Adam algorithm. .. math:: \begin{aligned} &\rule{110mm}{0.4pt} \\ &\textbf{input} : \gamma \text{ (lr)}, \beta_1, \beta_2 \text{ (betas)},\theta_0 \text{ (params)},f(\theta) \text{ (objective)} \\ &\hspace{13mm} \lambda \text{ (weight decay)}, \: \textit{amsgrad}, \:\textit{maximize} \\ &\textbf{initialize} : m_0 \leftarrow 0 \text{ ( first moment)}, v_0\leftarrow 0 \text{ (second moment)},\: \widehat{v_0}^{max}\leftarrow 0\\[-1.ex] &\rule{110mm}{0.4pt} \\ &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do} \\ &\hspace{5mm}\textbf{if} \: \textit{maximize}: \\ &\hspace{10mm}g_t \leftarrow -\nabla_{\theta} f_t (\theta_{t-1}) \\ &\hspace{5mm}\textbf{else} \\ &\hspace{10mm}g_t \leftarrow \nabla_{\theta} f_t (\theta_{t-1}) \\ &\hspace{5mm}\textbf{if} \: \lambda \neq 0 \\ &\hspace{10mm} g_t \leftarrow g_t + \lambda \theta_{t-1} \\ &\hspace{5mm}m_t \leftarrow \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ &\hspace{5mm}v_t \leftarrow \beta_2 v_{t-1} + (1-\beta_2) g^2_t \\ &\hspace{5mm}\widehat{m_t} \leftarrow m_t/\big(1-\beta_1^t \big) \\ &\hspace{5mm}\widehat{v_t} \leftarrow v_t/\big(1-\beta_2^t \big) \\ &\hspace{5mm}\textbf{if} \: amsgrad \\ &\hspace{10mm}\widehat{v_t}^{max} \leftarrow \mathrm{max}(\widehat{v_t}^{max}, \widehat{v_t}) \\ &\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma \widehat{m_t}/ \big(\sqrt{\widehat{v_t}^{max}} + \epsilon \big) \\ &\hspace{5mm}\textbf{else} \\ &\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma \widehat{m_t}/ \big(\sqrt{\widehat{v_t}} + \epsilon \big) \\ &\rule{110mm}{0.4pt} \\[-1.ex] &\bf{return} \: \theta_t \\[-1.ex] &\rule{110mm}{0.4pt} \\[-1.ex] \end{aligned} For further details regarding the algorithm we refer to `Adam: A Method for Stochastic Optimization`_. Args: params (iterable): iterable of parameters to optimize or dicts defining parameter groups lr (float, optional): learning rate (default: 1e-3) betas (Tuple[float, float], optional): coefficients used for computing running averages of gradient and its square (default: (0.9, 0.999)) eps (float, optional): term added to the denominator to improve numerical stability (default: 1e-8) weight_decay (float, optional): weight decay (L2 penalty) (default: 0) amsgrad (bool, optional): whether to use the AMSGrad variant of this algorithm from the paper `On the Convergence of Adam and Beyond`_ (default: False) foreach (bool, optional): whether foreach implementation of optimizer is used (default: None) maximize (bool, optional): maximize the params based on the objective, instead of minimizing (default: False) capturable (bool, optional): whether this instance is safe to capture in a CUDA graph. Passing True can impair ungraphed performance, so if you don't intend to graph capture this instance, leave it False (default: False) fused (bool, optional): whether fused implementation of optimizer is used. Currently, `torch.float64`, `torch.float32`, `torch.float16`, and `torch.bfloat16` are supported. (default: False) .. _Adam\: A Method for Stochastic Optimization: https://arxiv.org/abs/1412.6980 .. _On the Convergence of Adam and Beyond: https://openreview.net/forum?id=ryQu7f-RZ çü©ñÒMbP?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>rFN)ÚforeachÚmaximizeÚ capturableÚdifferentiableÚfusedc sþd|kstd |¡ƒ‚d|ks,td |¡ƒ‚d|dkrDdksXntd |d¡ƒ‚d|dkrpdks„ntd |d¡ƒ‚d|ksštd |¡ƒ‚t|||||||| | |d }tt|ƒ ||¡|rú| rØtdƒ‚d|_td d„|j Dƒƒsútdƒ‚dS)NçzInvalid learning rate: {}zInvalid epsilon value: {}rgð?z%Invalid beta parameter at index 0: {}r z%Invalid beta parameter at index 1: {}zInvalid weight_decay value: {}) ÚlrÚbetasÚepsÚweight_decayÚamsgradr4r3r5r6r7z"`fused` cannot be `differentiable`Tcss,|]$}|dD]}|jo t |¡VqqdS)ÚparamsN)Úis_cudar,Zis_floating_point)r&ZpgÚprrrÚ “s ÿz Adam.__init__..zr9r:r;r<r=r3r4r5r6r7Údefaults©Ú __class__rrrws8ýþz Adam.__init__cs´tƒ |¡|jD]L}| dd¡| dd¡| dd¡| dd¡| dd¡| dd¡qt|j ¡ƒ}t|ƒdkoŠt |dd ¡}|s°|D]}t t|d ƒ¡|d <q”dS) Nr=Fr4r3r5r6r7rÚstep)rEÚ__setstate__rHÚ setdefaultÚlistÚstater)r*r,Z is_tensorrÚfloat)rrPÚgroupZstate_valuesZstep_is_tensorÚsrJrrrM™s zAdam.__setstate__r#cCs*| ¡d}|dk r.t ¡|ƒ}W5QRX|jD]î}g}g}g}g}g} g} |d\}}d} d}|drš|dk rš| ¡} | j}t| ƒ} t|||d}|dD],}|jdk r¢| |¡|jj rÌtdƒ‚| |j¡|j|}t |ƒdkrp|jds|jdrtjd tj|jd nt d¡|d<tj|tjd |d<tj|tjd |d<|drptj|tjd |d<| |d¡| |d¡|dr¤| |d¡|drÂ|djrÂtdƒ‚| |d¡q¢t||||| | |d|||d|d|d|d|d|d|d|d| |dq4|S)aNPerforms a single optimization step. Args: closure (Callable, optional): A closure that reevaluates the model and returns the loss. grad_scaler (:class:`torch.cuda.amp.GradScaler`, optional): A GradScaler which is supplied from ``grad_scaler.step(optimizer)``. Nr:r7)r%r$rr>zJAdam does not support sparse gradients, please consider SparseAdam insteadrr5©r )Údtyperr8rL)Z memory_formatÚexp_avgÚ exp_avg_sqr=Zmax_exp_avg_sqr6zB`requires_grad` is not supported for `step` in differentiable moder9r<r;r4r3) r=Úbeta1Úbeta2r9r<r;r4r3r5r6r7Ú grad_scaleÚ found_inf)Z _cuda_graph_capture_health_checkr,Zenable_gradrHZ_get_scale_asyncrrr/ÚgradÚappendZ is_sparserFrPr*rIÚzerosrQrZ zeros_likeZpreserve_formatZ requires_gradr )rÚclosurer$ZlossrRZparams_with_gradÚgradsÚexp_avgsÚexp_avg_sqsÚmax_exp_avg_sqsÚstate_stepsrXrYrZr[rr@rPrrrrL¨s„ ÿÿý îz Adam.step)r0r1r2rF)N)rr r!Ú__doc__rÚboolrrMrrLÚ __classcell__rrrJrr2s(Dÿýý"F)r>r`rarbrcrdr3r5r6r7rZr[r=rXrYr9r<r;r4cCs–tdd„|Dƒƒstdƒ‚|dkr&d}|r.zPAPI has changed, `state_steps` argument must contain a list of singleton tensorsNFz6torch.jit.script not supported with foreach optimizers)r=rXrYr9r<r;r4r5r6rZr[)rGrFr,ZjitZis_scriptingÚ_multi_tensor_adamÚ_fused_adamÚ_single_tensor_adam)r>r`rarbrcrdr3r5r6r7rZr[r=rXrYr9r<r;r4Úfuncrrrr s:ð)r>r`rarbrcrdrZr[r=rXrYr9r<r;r4r5r6c CsJ|dkr|dkst‚t|ƒD]&\}}|s2||n||}||}||}||}|rl|jrd|jsltdƒ‚|d7}|dkrŠ|j||d}t |¡r¼t |¡}t |¡}t |¡}t |¡}| | ¡j|d| d| | ¡j || ¡d| d|sü|r¸|}dt | |¡}dt | |¡}||}| ¡}| ¡}|r|rR|| ¡}n||}|| t ||¡¡|| ¡|| | |¡}n| ¡|| | |¡}| ||¡q| ¡}d| |}d| |}||}t |¡}|r tj|||||d|| ¡| | ¡}n| ¡| | ¡}|j|||dqdS)Nú@If capturable=True, params and state_steps must be CUDA tensors.r r©Úalpha)Úvalue)Úout)r+Ú enumerater?Úaddr,Ú is_complexÚview_as_realZmul_Zadd_Zaddcmul_ZconjÚpowÚnegÚsqrtÚcloneZcopy_ÚmaximumZaddcdiv_ÚitemÚmath)r>r`rarbrcrdrZr[r=rXrYr9r<r;r4r5r6ÚiÚparamr\rVrWZstep_trLÚbias_correction1Úbias_correction2Ú step_sizeZ step_size_negÚbias_correction2_sqrtZmax_exp_avg_sqs_iÚdenomrrrrl?sV rlc sÖt|ƒdkrdS|r4tdd„t||ƒDƒƒs4tdƒ‚|dkrD|dksHt‚|rZt t|ƒ¡}|rftdƒ‚dd„|Dƒ}dd„|Dƒ}d d„|Dƒ}d d„|Dƒ}t |d¡|dkrÂtj|||dt |ˆ¡tj||dˆdt |ˆ¡t |||dˆ¡|r&‡fd d„|Dƒ}‡fdd„|Dƒ}t |d¡t |d¡t |¡t |¡t |ˆ¡}t |¡t |¡t |¡}|rÖt ||¡t |¡}t |t ||¡¡t || ¡}t |¡t ||¡}n@t |¡}t |t ||¡¡t || ¡}t |¡t ||¡}t |||¡n¬‡fdd„|Dƒ}‡fdd„|Dƒ}‡fdd„|Dƒ}dd„|Dƒ}|r t ||¡t |¡}t ||¡t || ¡}n"t |¡}t ||¡t || ¡}t ||||¡dS)Nrcss|]\}}|jo|jVqdSr)r?)r&r@rLrrrrAµsz%_multi_tensor_adam..rnz#_foreach ops don't support autogradcSs$g|]}t |¡rt |¡n|‘qSr©r,rurv©r&Úxrrrr(¿sz&_multi_tensor_adam..cSs$g|]}t |¡rt |¡n|‘qSrr…r†rrrr(ÀscSs$g|]}t |¡rt |¡n|‘qSrr…r†rrrr(ÁscSs$g|]}t |¡rt |¡n|‘qSrr…r†rrrr(Âsr rocsg|]}t ˆ|¡‘qSr©r,rw©r&rL©rXrrr(Óscsg|]}t ˆ|¡‘qSrrˆr‰©rYrrr(Ôscsg|]}dˆ| ¡‘qSrT©r|r‰rŠrrr(÷scsg|]}dˆ| ¡‘qSrTrŒr‰r‹rrr(øscsg|]}ˆ|d‘qS)éÿÿÿÿr©r&Zbc)r9rrr(úscSsg|]}t |¡‘qSr)r}ryrŽrrrr(üs)r*rGÚzipr+r,Z_foreach_negÚtupleÚ _foreach_add_Z _foreach_mul_Z_foreach_addcmul_Ú _foreach_sub_Z _foreach_neg_Z_foreach_divZ_foreach_reciprocal_Z _foreach_sqrtZ_foreach_maximum_Z _foreach_div_Z_foreach_mulZ_foreach_addZ_foreach_addcdiv_)r>r`rarbrcrdrZr[r=rXrYr9r<r;r4r5r6Zparams_r€rr‚rƒZmax_exp_avg_sq_sqrtZeps_over_step_sizer„Zexp_avg_sq_sqrtr)rXrYr9rrjŸstÿ rj)r>r`rarbrcrdrcCs¼tdd„ƒ}tt||ƒƒD]œ\}\}} t|jƒ|jf} || d |¡|| d ||¡|| d ||¡|| d ||¡|r¤|| d ||¡|| d | ¡q|S) NcSsdd„tdƒDƒS)NcSsg|]}g‘qSrr)r&Ú_rrrr(szG_group_params_by_device_and_dtype....é)ÚrangerrrrÚóz3_group_params_by_device_and_dtype..rr éééé)rrsrrrrUr])r>r`rarbrcrdZper_device_and_dtype_tensorsr~r@rLÚkeyrrrÚ!_group_params_by_device_and_dtypes r)r>r`rarbrcrdrZr[r=rXrYr9r<r;r4r5r6rc Cs¼t||||||ƒ}|D] \}}|||f\}}}}}}|dk r\|dk r\| |¡}| |¡}nd}d}t |d¡tj||||||||| | || |||d|dk rt ||gt|ƒ¡qdS)Nr ) r=r9rXrYr<r;r4rZr[)rrr,r‘Z_fused_adam_r’r*)r>r`rarbrcrdrZr[r=rXrYr9r<r;r4r5r6Zgrouped_tensorsrrUZ device_paramsZdevice_gradsZdevice_exp_avgsZdevice_exp_avg_sqsZdevice_max_exp_avg_sqsZdevice_state_stepsZdevice_grad_scaleZdevice_found_infrrrrk'sF ù ñrk)NFFFNN) Úcollectionsrr}Útypingrrrrrr,rr%r rÚ__all__rZcudaÚampZ GradScalerrr/rrfrQr rlrjr-rrUrrkrrrrÚsÔýûXóë>ï`ïrùí