U
    <ºc=6  ã                   @   s  d dl Z d dl mZ ddlmZmZ d dlmZmZ ddgZG dd„ deƒZ	dee ee ee ee ee e
e
e
eeeeee
d
œdd„Zee ee ee ee ee eeeeee
e
e
dœdd„Zee ee ee ee ee eeeeee
e
e
dœdd„ZdS )é    N)ÚTensoré   )Ú	OptimizerÚ_use_grad_for_differentiable)ÚListÚOptionalÚRMSpropÚrmspropc                	       sJ   e Zd ZdZdee eedœ‡ fd	d
„Z‡ fdd„Zeddd„ƒZ	‡  Z
S )r   až  Implements RMSprop algorithm.

    .. math::
       \begin{aligned}
            &\rule{110mm}{0.4pt}                                                                 \\
            &\textbf{input}      : \alpha \text{ (alpha)},\: \gamma \text{ (lr)},
                \: \theta_0 \text{ (params)}, \: f(\theta) \text{ (objective)}                   \\
            &\hspace{13mm}   \lambda \text{ (weight decay)},\: \mu \text{ (momentum)},\: centered\\
            &\textbf{initialize} : v_0 \leftarrow 0 \text{ (square average)}, \:
                \textbf{b}_0 \leftarrow 0 \text{ (buffer)}, \: g^{ave}_0 \leftarrow 0     \\[-1.ex]
            &\rule{110mm}{0.4pt}                                                                 \\
            &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do}                         \\
            &\hspace{5mm}g_t           \leftarrow   \nabla_{\theta} f_t (\theta_{t-1})           \\
            &\hspace{5mm}if \: \lambda \neq 0                                                    \\
            &\hspace{10mm} g_t \leftarrow g_t + \lambda  \theta_{t-1}                            \\
            &\hspace{5mm}v_t           \leftarrow   \alpha v_{t-1} + (1 - \alpha) g^2_t
                \hspace{8mm}                                                                     \\
            &\hspace{5mm} \tilde{v_t} \leftarrow v_t                                             \\
            &\hspace{5mm}if \: centered                                                          \\
            &\hspace{10mm} g^{ave}_t \leftarrow g^{ave}_{t-1} \alpha + (1-\alpha) g_t            \\
            &\hspace{10mm} \tilde{v_t} \leftarrow \tilde{v_t} -  \big(g^{ave}_{t} \big)^2        \\
            &\hspace{5mm}if \: \mu > 0                                                           \\
            &\hspace{10mm} \textbf{b}_t\leftarrow \mu \textbf{b}_{t-1} +
                g_t/ \big(\sqrt{\tilde{v_t}} +  \epsilon \big)                                   \\
            &\hspace{10mm} \theta_t \leftarrow \theta_{t-1} - \gamma \textbf{b}_t                \\
            &\hspace{5mm} else                                                                   \\
            &\hspace{10mm}\theta_t      \leftarrow   \theta_{t-1} -
                \gamma  g_t/ \big(\sqrt{\tilde{v_t}} + \epsilon \big)  \hspace{3mm}              \\
            &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
            &\bf{return} \:  \theta_t                                                     \\[-1.ex]
            &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
       \end{aligned}

    For further details regarding the algorithm we refer to
    `lecture notes <https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf>`_ by G. Hinton.
    and centered version `Generating Sequences
    With Recurrent Neural Networks <https://arxiv.org/pdf/1308.0850v5.pdf>`_.
    The implementation here takes the square root of the gradient average before
    adding epsilon (note that TensorFlow interchanges these two operations). The effective
    learning rate is thus :math:`\gamma/(\sqrt{v} + \epsilon)` where :math:`\gamma`
    is the scheduled learning rate and :math:`v` is the weighted moving average
    of the squared gradient.

    Args:
        params (iterable): iterable of parameters to optimize or dicts defining
            parameter groups
        lr (float, optional): learning rate (default: 1e-2)
        momentum (float, optional): momentum factor (default: 0)
        alpha (float, optional): smoothing constant (default: 0.99)
        eps (float, optional): term added to the denominator to improve
            numerical stability (default: 1e-8)
        centered (bool, optional) : if ``True``, compute the centered RMSProp,
            the gradient is normalized by an estimation of its variance
        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)
        foreach (bool, optional): whether foreach implementation of optimizer
            is used (default: None)
        maximize (bool, optional): maximize the params based on the objective, instead of
            minimizing (default: False)

    ç{®Gáz„?ç®Gáz®ï?ç:Œ0âŽyE>r   FN)ÚforeachÚmaximizeÚdifferentiablec                    sž   d|kst d |¡ƒ‚d|ks,t d |¡ƒ‚d|ksBt d |¡ƒ‚d|ksXt d |¡ƒ‚d|ksnt d |¡ƒ‚t||||||||	|
d	}tt| ƒ ||¡ d S )Ng        zInvalid learning rate: {}zInvalid epsilon value: {}zInvalid momentum value: {}zInvalid weight_decay value: {}zInvalid alpha value: {})	ÚlrÚmomentumÚalphaÚepsÚcenteredÚweight_decayr   r   r   )Ú
ValueErrorÚformatÚdictÚsuperr   Ú__init__)ÚselfÚparamsr   r   r   r   r   r   r   r   r   Údefaults©Ú	__class__© ú7/tmp/pip-unpacked-wheel-gikjz4vx/torch/optim/rmsprop.pyr   F   s"      þzRMSprop.__init__c                    sX   t ƒ  |¡ | jD ]@}| dd¡ | dd¡ | dd ¡ | dd¡ | dd¡ qd S )Nr   r   r   Fr   r   r   )r   Ú__setstate__Úparam_groupsÚ
setdefault)r   ÚstateÚgroupr   r    r!   r"   Y   s    
zRMSprop.__setstate__c                 C   s¸  d}|dk	r&t  ¡  |ƒ }W 5 Q R X | jD ]„}g }g }g }g }g }|d D ]}	|	jdkr`qN| |	¡ |	jjrztdƒ‚| |	j¡ | j|	 }
t|
ƒdkrôd|
d< t j	|	t j
d|
d< |d dkrØt j	|	t j
d|
d	< |d
 rôt j	|	t j
d|
d< | |
d ¡ |d dkr| |
d	 ¡ |d
 r6| |
d ¡ |d rXt|
d tƒrXtdƒ‚|
d  d7  < qNt||||||d |d |d |d |d |d
 |d |d |d d q,|S )z±Performs a single optimization step.

        Args:
            closure (Callable, optional): A closure that reevaluates the model
                and returns the loss.
        Nr   z)RMSprop does not support sparse gradientsr   Ústep)Zmemory_formatÚ
square_avgr   Zmomentum_bufferr   Úgrad_avgr   z`step` can't be a tensorr   r   r   r   r   r   r   )	r   r   r   r   r   r   r   r   r   )ÚtorchZenable_gradr#   ÚgradÚappendZ	is_sparseÚRuntimeErrorr%   ÚlenZ
zeros_likeZpreserve_formatÚ
isinstancer   r	   )r   ÚclosureZlossr&   Zparams_with_gradÚgradsÚsquare_avgsÚ	grad_avgsÚmomentum_buffer_listÚpr%   r    r    r!   r'   b   sb    




ózRMSprop.step)	r
   r   r   r   r   FNFF)N)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   Úboolr   r"   r   r'   Ú__classcell__r    r    r   r!   r      s   =       þ þ	F)r   r1   r2   r3   r4   r   r   r   r   r   r   r   r   r   c                C   s`   |dkrd}|r"t j ¡ r"tdƒ‚|r6t j ¡ s6t}nt}|| ||||||	|
|||||d dS )zsFunctional API that performs rmsprop algorithm computation.
    See :class:`~torch.optim.RMSProp` for details.
    NFz6torch.jit.script not supported with foreach optimizers)r   r   r   r   r   r   r   r   )r*   ZjitZis_scriptingr-   Ú_multi_tensor_rmspropÚ_single_tensor_rmsprop)r   r1   r2   r3   r4   r   r   r   r   r   r   r   r   r   Úfuncr    r    r!   r	   ¨   s*    ô)r   r1   r2   r3   r4   r   r   r   r   r   r   r   r   c                C   sT  t | ƒD ]D\}}|| }|s"|n| }|| }|dkrF|j||d}t |¡}|rrt |¡}t |¡}t |¡}| |¡j||d| d |
rÔ|| }|r¦t |¡}| |¡j|d| d |j||dd 	¡ }n| 
¡ }|rì| |¡}n
| |¡}|	dkr<|| }|rt |¡}| |	¡ ||¡ |j|| d q|j||| d qd S )Nr   ©r   r   ©Úvalueéÿÿÿÿ)Ú	enumerateÚaddr*   Ú
is_complexÚview_as_realZmul_Zaddcmul_Zadd_ZaddcmulZsqrt_ÚsqrtZaddcdiv_)r   r1   r2   r3   r4   r   r   r   r   r   r   r   r   ÚiÚparamr+   r(   Zis_complex_paramr)   ÚavgÚbufr    r    r!   r=   Ø   s:    






r=   c                C   sH  t | ƒdkrd S |rtdƒ‚|r*t |¡}|dkrBtj|| |d dd„ }||ƒ}|| ƒ} ||ƒ}t ||¡ tj|||d| d |
rÚ||ƒ}t ||¡ tj||d| d tj|||dd}t |¡ t ||¡ nt 	|¡}t ||¡ |	dkr0||ƒ}t ||	¡ t 
|||¡ tj| || d ntj
| ||| d d S )	Nr   z#_foreach ops don't support autogradr?   c                 S   s   dd„ | D ƒS )Nc                 S   s$   g | ]}t  |¡rt  |¡n|‘qS r    )r*   rE   rF   )Ú.0Útr    r    r!   Ú
<listcomp>*  s     zH_multi_tensor_rmsprop.<locals>._view_complex_as_real.<locals>.<listcomp>r    )Ztensor_listr    r    r!   Ú_view_complex_as_real)  s    z4_multi_tensor_rmsprop.<locals>._view_complex_as_realr   r@   rB   )r.   ÚAssertionErrorr*   Z_foreach_negZ_foreach_add_Z_foreach_mul_Z_foreach_addcmul_Z_foreach_addcmulZ_foreach_sqrt_Z_foreach_sqrtZ_foreach_addcdiv_)r   r1   r2   r3   r4   r   r   r   r   r   r   r   r   rO   rJ   r    r    r!   r<     s8    



r<   )NFF)r*   r   Z	optimizerr   r   Útypingr   r   Ú__all__r   r:   Úfloatr	   r=   r<   r    r    r    r!   Ú<module>   sh    (   ÷ð0ó7ó