U
    <ºc_#  ã                   @   s  d dl Z d dlZd dlmZ ddlmZ d dlmZmZ ddgZG dd„ deƒZ	dee ee ee ee ee ee e
e
eeeeed
œdd„Zee ee ee ee ee ee eeeeee
dœdd„Zee ee ee ee ee ee eeeeee
dœdd„ZdS )é    N)ÚTensoré   )Ú	Optimizer)ÚListÚOptionalÚASGDÚasgdc                       sL   e Zd ZdZdee ed	œ‡ fd
d„Z‡ fdd„Ze 	¡ ddd„ƒZ
‡  ZS )r   aÊ  Implements Averaged Stochastic Gradient Descent.

    It has been proposed in `Acceleration of stochastic approximation by
    averaging`_.

    Args:
        params (iterable): iterable of parameters to optimize or dicts defining
            parameter groups
        lr (float, optional): learning rate (default: 1e-2)
        lambd (float, optional): decay term (default: 1e-4)
        alpha (float, optional): power for eta update (default: 0.75)
        t0 (float, optional): point at which to start averaging (default: 1e6)
        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)
        foreach (bool, optional): whether foreach implementation of optimizer
            is used (default: None)
        maximize (bool, optional): maximize the params based on the objective, instead of
            minimizing (default: False)

    .. _Acceleration of stochastic approximation by averaging:
        https://dl.acm.org/citation.cfm?id=131098
    ç{®Gáz„?ç-Cëâ6?ç      è?ç    €„.Ar   NF)ÚforeachÚmaximizec	           
   	      sX   d|kst d |¡ƒ‚d|ks,t d |¡ƒ‚t|||||||d}	tt| ƒ ||	¡ d S )Nç        zInvalid learning rate: {}zInvalid weight_decay value: {})ÚlrÚlambdÚalphaÚt0Úweight_decayr   r   )Ú
ValueErrorÚformatÚdictÚsuperr   Ú__init__)
ÚselfÚparamsr   r   r   r   r   r   r   Údefaults©Ú	__class__© ú4/tmp/pip-unpacked-wheel-gikjz4vx/torch/optim/asgd.pyr   !   s    
  ÿzASGD.__init__c                    s  t ƒ  |¡ | jD ]}| dd ¡ | dd¡ qt| j ¡ ƒ}t|ƒdkoZt 	|d d ¡}|s€|D ]}t 
t|d ƒ¡|d< qdt|ƒdkoœt 	|d d ¡}|s¾|D ]}t 
|d ¡|d< q¦t|ƒdkoÚt 	|d d ¡}|s|D ]}t 
t|d ƒ¡|d< qæd S )Nr   r   Fr   ÚstepÚetaÚmu)r   Ú__setstate__Úparam_groupsÚ
setdefaultÚlistÚstateÚvaluesÚlenÚtorchZ	is_tensorÚtensorÚfloat)r   r(   ÚgroupZstate_valuesZstep_is_tensorÚsZeta_is_tensorZmu_is_tensorr   r   r    r$   ,   s"    
zASGD.__setstate__c                 C   s\  d}|dk	r&t  ¡  |ƒ }W 5 Q R X | jD ](}g }g }g }g }g }g }	|d D ]Ä}
|
jdk	rR| |
¡ |
jjrztdƒ‚| |
j¡ | j|
 }t|ƒdkrÞt  	d¡|d< t  	|d ¡|d< t  	d	¡|d
< t j
|
t jd|d< | |d
 ¡ | |d ¡ | |d ¡ |	 |d ¡ qRt||||||	|d |d |d |d |d |d |d d q,|S )z±Performs a single optimization step.

        Args:
            closure (Callable, optional): A closure that reevaluates the model
                and returns the loss.
        Nr   z&ASGD does not support sparse gradientsr   r   r!   r   r"   g      ð?r#   )Zmemory_formatÚaxr   r   r   r   r   r   )r   r   r   r   r   r   r   )r+   Zenable_gradr%   ÚgradÚappendZ	is_sparseÚRuntimeErrorr(   r*   r,   Z
zeros_likeZpreserve_formatr   )r   ÚclosureZlossr.   Zparams_with_gradÚgradsÚmusÚaxsÚetasÚstate_stepsÚpr(   r   r   r    r!   ?   sT    



ôz	ASGD.step)r	   r
   r   r   r   NF)N)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   Úboolr   r$   r+   Zno_gradr!   Ú__classcell__r   r   r   r    r   
   s       ÿ ÿF)r   r5   r7   r6   r8   r9   r   r   r   r   r   r   r   c                C   s^   |dkrd}|r"t j ¡ r"tdƒ‚|r6t j ¡ s6t}nt}|| |||||||	|
|||d dS )znFunctional API that performs asgd algorithm computation.

    See :class:`~torch.optim.ASGD` for details.
    NFz6torch.jit.script not supported with foreach optimizers)r   r   r   r   r   r   )r+   ZjitZis_scriptingr3   Ú_multi_tensor_asgdÚ_single_tensor_asgd)r   r5   r7   r6   r8   r9   r   r   r   r   r   r   r   Úfuncr   r   r    r   y   s(    õ)r   r5   r7   r6   r8   r9   r   r   r   r   r   r   c             	   C   sB  t | ƒD ]2\}}|| }|s"|n| }|| }|| }|| }|| }t |¡rpt |¡}t |¡}t |¡}|d7 }| ¡ }|
dkr–|j||
d}| d|| ¡   ¡ |j|| ¡  d | ¡ dkrä| | |¡ 	|¡¡ n
| 
|¡ t |t d|| |  |	¡ ¡}| 
|¡ t dtd|| ƒ ¡}| 
|¡ qd S )Nr   r   ©r   )Ú	enumerater+   Ú
is_complexÚview_as_realÚitemÚaddZmul_Úadd_ÚsubÚmulÚcopy_r,   ÚmathÚpowÚmax)r   r5   r7   r6   r8   r9   r   r   r   r   r   r   ÚiÚparamr1   r#   r0   r"   Zstep_tr!   Únew_etaÚnew_mur   r   r    rB   ¨   s0    



"
rB   c             
   C   sl  t | ƒdkrd S |rt |¡}dd„ }||ƒ}|| ƒ} ||ƒ}t |d¡ |
dkrbtj|| |
d}|d  ¡ }t | d||  ¡ tj| || d tt |ƒƒD ]N}||  ¡ dkrÜ||  | |  	|| ¡ 
|| ¡¡ q ||  | | ¡ q tt |ƒƒD ]j}t |t d|| ||  ¡   |	¡ ¡}||  |¡ t dtd||  ¡ | ƒ ¡}||  |¡ qüd S )Nr   c                 S   s   dd„ | D ƒS )Nc                 S   s$   g | ]}t  |¡rt  |¡n|‘qS r   )r+   rF   rG   )Ú.0Útr   r   r    Ú
<listcomp>ñ   s     zE_multi_tensor_asgd.<locals>._view_complex_as_real.<locals>.<listcomp>r   )Ztensor_listr   r   r    Ú_view_complex_as_realð   s    z1_multi_tensor_asgd.<locals>._view_complex_as_realr   rD   )r*   r+   Z_foreach_negZ_foreach_add_Z_foreach_addrH   Z_foreach_mul_ÚrangerJ   rK   rL   rM   r,   rN   rO   rP   )r   r5   r7   r6   r8   r9   r   r   r   r   r   r   rX   r"   rQ   rS   rT   r   r   r    rA   Ü   s.    
(* rA   )NF)rN   r+   r   Z	optimizerr   Útypingr   r   Ú__all__r   r?   r-   r   rB   rA   r   r   r   r    Ú<module>   s`   w  ÷ñ/ô4ô