U <ºcê:ã@sxddlmZmZddlZddlmZddlmZddl Z ddl Z dgZGdd„deƒZ e ƒZdd „ZGd d„deƒZdS)é)ÚdefaultdictÚabcN)Údeepcopy)ÚchainÚ Optimizerc@seZdZdZdd„ZdS)Ú_RequiredParameterzCSingleton class representing a required parameter for an Optimizer.cCsdS)Nz©©Úselfrrú9/tmp/pip-unpacked-wheel-gikjz4vx/torch/optim/optimizer.pyÚ__repr__sz_RequiredParameter.__repr__N)Ú__name__Ú __module__Ú__qualname__Ú__doc__rrrrrr srcs‡fdd„}|S)Nc s>t ¡}z$t |jd¡ˆ|f|ž|Ž}W5t |¡X|S)NÚdifferentiable)ÚtorchZis_grad_enabledZset_grad_enabledÚdefaults)r ÚargsÚkwargsZ prev_gradÚret©ÚfuncrrÚ _use_gradsz/_use_grad_for_differentiable.._use_gradr)rrrrrÚ_use_grad_for_differentiablesrc@sxeZdZdZdd„Zdd„Zdd„Zdd „Zd d„Zdd „Z dd„Z dd„Zdd„Zde dœdd„Zdd„Zdd„ZdS)raXBase class for all optimizers. .. warning:: Parameters need to be specified as collections that have a deterministic ordering that is consistent between runs. Examples of objects that don't satisfy those properties are sets and iterators over values of dictionaries. Args: params (iterable): an iterable of :class:`torch.Tensor` s or :class:`dict` s. Specifies what Tensors should be optimized. defaults: (dict): a dict containing default values of optimization options (used when a parameter group doesn't specify them). cCsštj d¡||_| ¡t|tjƒr8tdt |¡ƒ‚t t ƒ|_g|_t |ƒ}t|ƒdkrdtdƒ‚t|dt ƒs|d|ig}|D]}| |¡q€d|_dS)Nzpython.optimizerzZparams argument given to the optimizer should be an iterable of Tensors or dicts, but got rz%optimizer got an empty parameter listÚparamsT)rZ_CZ_log_api_usage_oncerÚ_hook_for_profileÚ isinstanceÚTensorÚ TypeErrorÚtypenamerÚdictÚstateÚparam_groupsÚlistÚlenÚ ValueErrorÚadd_param_groupÚ$_warned_capturable_if_run_uncaptured)r rrr#Úparam_grouprrrÚ__init__-s"þ zOptimizer.__init__cCs|j|j|jdœS)N©rr"r#r+r rrrÚ__getstate__JsýzOptimizer.__getstate__cCs&|j |¡| ¡|j dd¡dS)NrF)Ú__dict__ÚupdaterrÚ setdefault)r r"rrrÚ__setstate__QszOptimizer.__setstate__cCsp|jjd}t|jƒD]L\}}|d7}|d |¡7}t| ¡ƒD] }|dkr@|d |||¡7}q@q|d7}|S)Nz (Ú zParameter Group {0} rz {0}: {1} ú))Ú __class__r Ú enumerater#ÚformatÚsortedÚkeys)r Ú format_stringÚiÚgroupÚkeyrrrrVszOptimizer.__repr__cCshtjrdtj ¡rdtj ¡}|r<|jds.profile_hook_step..wrapper)Ú functoolsÚwraps)rrGrrrÚprofile_hook_step…sz6Optimizer._hook_for_profile..profile_hook_stepÚhookedT)r5r3r Ú_zero_grad_profile_namer=ÚsteprK)r rJrKrrrr‚s zOptimizer._hook_for_profilecsLi‰d‰‡‡fdd„‰‡fdd„|jDƒ}‡fdd„|j ¡Dƒ}||dœS) aKReturns the state of the optimizer as a :class:`dict`. It contains two entries: * state - a dict holding current optimization state. Its content differs between optimizer classes. * param_groups - a list containing all parameter groups where each parameter group is a dict rcsbdd„| ¡Dƒ}ˆ ‡fdd„t|dˆƒDƒ¡‡fdd„|dDƒ|d<ˆt|dƒ7‰|S)NcSsi|]\}}|dkr||“qS)rr©Ú.0ÚkÚvrrrÚ §sz.pack_group..cs&i|]\}}t|ƒˆkrt|ƒ|“qSr©Úid)rOr9Úp©Úparam_mappingsrrrR¨sÿrcsg|]}ˆt|ƒ‘qSrrS)rOrUrVrrÚ ªsz.pack_group..)Úitemsr.r4r%)r:Úpacked)rWÚstart_indexrrÚ pack_group¥s "z(Optimizer.state_dict..pack_groupcsg|]}ˆ|ƒ‘qSrr©rOÚg)r\rrrXsz(Optimizer.state_dict..cs.i|]&\}}t|tjƒr$ˆt|ƒn||“qSr)rrrrTrNrVrrrR¯sÿz(Optimizer.state_dict..©r"r#)r#r"rY)r r#Zpacked_stater)r\rWr[rÚ state_dict—s ÿþzOptimizer.state_dictcs&t|ƒ}|j}|d}t|ƒt|ƒkr.tdƒ‚dd„|Dƒ}dd„|Dƒ}tdd„t||ƒDƒƒrjtdƒ‚dd „tt d d„|Dƒ¡t dd„|Dƒ¡ƒDƒ}d‡fd d„ ‰tt ƒ}|d ¡D]0\}} ||krè||} ˆ| | ƒ|| <qÀ| ||<qÀdd„‰‡fdd„t||ƒDƒ}| ||dœ¡dS)z²Loads the optimizer state. Args: state_dict (dict): optimizer state. Should be an object returned from a call to :meth:`state_dict`. r#zÆsz,Optimizer.load_state_dict..css|]}t|dƒVqdSrarbr]rrrrcÇscss|]\}}||kVqdS©Nr)rOZp_lenZs_lenrrrrcÈsz]loaded state dict contains a parameter group that doesn't match the size of optimizer's groupcSsi|]\}}||“qSrr)rOZold_idrUrrrrRÍsz-Optimizer.load_state_dict..css|]}|dVqdSrarr]rrrrcÎscss|]}|dVqdSrarr]rrrrcÏsNcsŠt|tjƒr8|dkr4ˆ ¡r(| ˆj¡}| ˆj¡}|St|tƒrZ‡‡fdd„| ¡DƒSt|t j ƒr‚t|ƒ‡‡fdd„|DƒƒS|SdS)zBMake a deep copy of value, casting all tensors to device of param.rMcs i|]\}}|ˆˆ||d“qS))r;rrN©ÚcastÚparamrrrRÝsz;Optimizer.load_state_dict..cast..c3s|]}ˆˆ|ƒVqdSrdr)rOrQrerrrcßsz:Optimizer.load_state_dict..cast..N)rrrZis_floating_pointÚtoÚdtypeÚdevicer!rYÚcontainer_abcsÚIterableÚtype)rgÚvaluer;)rf)rgrrfÑs z'Optimizer.load_state_dict..castr"cSs|d|d<|S)Nrr)r:Z new_grouprrrÚupdate_groupïsz/Optimizer.load_state_dict..update_groupcsg|]\}}ˆ||ƒ‘qSrr)rOr^Zng)rorrrXòsz-Optimizer.load_state_dict..r_)N)rr#r%r&ÚanyÚziprÚ from_iterablerr!rYr0)r r`ÚgroupsZsaved_groupsZ param_lensZ saved_lensZid_mapr"rPrQrgr#r)rfrorÚload_state_dict¶s4ÿÿ ÿzOptimizer.load_state_dictF)Úset_to_nonec Cs|j dd¡}t|dƒs | ¡|r0tdd„ƒ}tjj |j ¡¼|j D]€}|dD]r}|jdk rT|rnd|_qT|jjdk r†|j ¡n|j d¡|rž|jjrª|j ¡qT||jj|jj |j¡qTqH|rø| ¡D] \}}| ¡D]}t |¡qæqÖW5QRXdS)a¶Sets the gradients of all optimized :class:`torch.Tensor` s to zero. Args: set_to_none (bool): instead of setting to zero, set the grads to None. This will in general have lower memory footprint, and can modestly improve performance. However, it changes certain behaviors. For example: 1. When the user tries to access a gradient and perform manual ops on it, a None attribute or a Tensor full of 0s will behave differently. 2. If the user requests ``zero_grad(set_to_none=True)`` followed by a backward pass, ``.grad``\ s are guaranteed to be None for params that did not receive a gradient. 3. ``torch.optim`` optimizers have a different behavior if the gradient is 0 or None (in one case it does the step with a gradient of 0 and in the other it skips the step altogether). ÚforeachFrLcSsttƒSrd)rr$rrrrÚ óz%Optimizer.zero_grad..rN)rÚgetÚhasattrrrrrArBrCrLr#ZgradZgrad_fnZdetach_Zrequires_grad_Z is_sparseZzero_rjriÚappendrYÚvaluesZ_foreach_zero_) r rurvZper_device_and_dtype_gradsr:rUrEZper_dtype_gradsZgradsrrrÚ zero_gradös* zOptimizer.zero_gradcCst‚dS)afPerforms a single optimization step (parameter update). Args: closure (Callable): A closure that reevaluates the model and returns the loss. Optional for most optimizers. .. note:: Unless otherwise specified, this function should not modify the ``.grad`` field of the parameters. N)ÚNotImplementedError)r ÚclosurerrrrMszOptimizer.stepcCs\t|tƒstdƒ‚|d}t|tjƒr2|g|d<n t|tƒrFtdƒ‚nt|ƒ|d<|dD]D}t|tjƒs|tdt |¡ƒ‚|j dd¡sZ|jsZ|jsZt dƒ‚qZ|j ¡D]2\}}|tkrÐ||krÐt d|ƒ‚qª| ||¡qª|d}t|ƒtt|ƒƒkr tjd d dtƒ}|jD]}| t|dƒ¡q| t|dƒ¡sLt dƒ‚|j |¡dS) aŽAdd a param group to the :class:`Optimizer` s `param_groups`. This can be useful when fine tuning a pre-trained network as frozen layers can be made trainable and added to the :class:`Optimizer` as training progresses. Args: param_group (dict): Specifies what Tensors should be optimized along with group specific optimization options. zparam group must be a dictrzšoptimizer parameters need to be organized in ordered collections, but the ordering of tensors in sets will change between runs. Please use a list instead.z>optimizer can only optimize Tensors, but one of the params is rNz can't optimize a non-leaf TensorzJparameter group didn't specify a value of required optimization parameter z¥optimizer contains a parameter group with duplicate parameters; in future, this will cause an error; see github.com/pytorch/pytorch/issues/40967 for more informationé)Ú stacklevelz7some parameters appear in more than one parameter group)rr!ÚAssertionErrorrrÚsetrr$r rryZis_leafZretains_gradr&rYÚrequiredr/r%ÚwarningsÚwarnr#r.Ú isdisjointr{)r r)rrgÚnameÚdefaultZ param_setr:rrrr',s> ÿ ÿþ zOptimizer.add_param_groupN)F)r rrrr*r,r0rr?r@rr`rtÚboolr}rMr'rrrrrs @) )ÚcollectionsrrrkrÚcopyrÚ itertoolsrr…rHÚ__all__Úobjectrr„rrrrrrÚs