ó
    ®—ýhP!  ã                   ó<  • S r SSKJrJrJrJrJr  SSKrSSKJ	r	J
r
  SSKJr  SSKJrJr  SSKJrJr  \R&                  r " S S	\5      rS
\S\S\S\\\4   4S jrS\R&                  S\\S4   4S jr   S(S
\S\S\S\S\R0                  S\\   S\\   S\S\4S jjrS\R&                  S\\   S\S\S\S\S\R&                  4S  jrS!\R&                  S\4S" jrS!\R&                  S\4S# jrS$\\\\\\4   \\   4      S\\\4   4S% jrS&\\\4   SS4S' jr g))z;
Defines an nn module designed to be used during inference
é    )ÚListÚ
NamedTupleÚOptionalÚTupleÚUnionN)Úis_row_majorÚpad_tensor_for_matmul)ÚFP8Granularity)ÚPerRowÚ	PerTensor)Úis_MI300Úis_sm_at_least_89c                   óD   • \ rS rSr% SrSr\\S'   Sr\\S'   Sr	\\S'   Sr
g)	ÚFloat8MMConfigé   a{  
Configuration for the scaled_mm in the forward and backward pass.

Attributes:
    emulate (bool): Whether to emulate the matmuls in fp32.
    use_fast_accum (bool): Whether to use the fast-accumulation option for scaled_mm.
    pad_inner_dim (bool): Whether to pad the inner dimension of a and b with 0s.
                          This is needed for matmuls not aligned to 16.
FÚemulateÚuse_fast_accumÚpad_inner_dim© N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   ÚboolÚ__annotations__r   r   Ú__static_attributes__r   ó    ÚR/home/james-whalen/.local/lib/python3.13/site-packages/torchao/float8/inference.pyr   r      s'   ‡ ñð €GˆTÓØ €NDÓ Ø€M4Ör   r   Úa_dataÚb_dataÚscaled_mm_configÚreturnc                 óà  • UR                   (       ac  U R                  S5      UR                  S5      :X  d+   SU R                  S5       SUR                  S5       35       e[        U SS9n [        USS9n[        U R	                  5       5      (       d  U R                  5       n [        UR	                  5       5      (       a,  UR                  5       R                  5       R                  5       nX4$ )zêPreprocess the inner fp8 data tensors for admmm
Args:
    a_data: Input tensor A.
    b_data: Input tensor B.
    scaled_mm_config: Configuration for _scaled_mm.
Returns:
    Preprocessed tensors A and B in the format for _scaled_mm.
é   r   z"Inner dims must match for mm, got z and )Údims)r   Úsizer	   r   ÚstrideÚ
contiguousÚt)r    r!   r"   s      r   Úpreprocess_datar+   ,   sÄ   € ð ×%×%Ø{‰{˜1‹~ §¡¨Q£Ó/ð 	
Ø0°·±¸Q³Ð0@ÀÀfÇkÁkÐRSÃnÐEUÐVó	
Ð/ô ' v°AÑ6ˆÜ& v°AÑ6ˆÜ˜Ÿ™›×(Ñ(Ø×"Ñ"Ó$ˆÜF—M‘M“O×$Ñ$Ø—‘“×&Ñ&Ó(×*Ñ*Ó,ˆØˆ>Ðr   Úinput_scaleÚinput_shape.c                 óÚ   • U R                  5       S:X  a  U R                  SS5      $ U R                  S5      n U R                  5       S:”  a  U R                  SU R                  S   5      n U $ )z:Ensures input tensor is correctly formatted for _scaled_mmr%   éÿÿÿÿé   )ÚnumelÚreshapeÚ	unsqueezeÚdimÚshape)r,   r-   s     r   Úpreprocess_scaler6   F   sn   € ð ×ÑÓ˜aÓà×"Ñ" 1 aÓ(Ð(ð ×'Ñ'¨Ó+€Kð ‡Ó˜1ÓØ!×)Ñ)¨"¨k×.?Ñ.?ÀÑ.CÓDˆàÐr   Úa_scaleÚb_scaleÚoutput_dtypeÚoutput_scaleÚbiasr   c                 ó¢   • U[         R                  :X  a!  Ub  [         R                  " U UUUUUUS9nX†-   $ [         R                  " U UUUUUUUS9$ )zÓ
This is the unwrapped version of addmm_float8, which does not take in Float8TrainingTensors
as inputs. This is used to standardize the logic between subclassed and non subclassed
versions of the linear module.
)Úscale_aÚscale_bÚscale_resultÚ	out_dtyper   )r=   r>   r;   r?   r@   r   )ÚtorchÚfloat32Ú
_scaled_mm)	r    r7   r!   r8   r9   r:   r;   r   Úoutputs	            r   Ú addmm_float8_unwrapped_inferencerE   X   so   € ð  ”u—}‘}Ó$¨Ñ)9ä×!Ò!ØØØØØ%Ø"Ø)ñ
ˆð ‰}ÐÜ×ÒØØØØØØ!ØØ%ñ	ð 	r   ÚscaleÚ
data_shaper4   ÚstartÚendÚstepc                 óâ  ^ ^• [         R                  R                  nT R                  T:X  a  UR                  R                  T X#XE5      $ [        UU 4S j[        [        T5      5       5       5      nU[        U5      :¼  a  T $ Xr   nUS:X  a  UR                  R                  T X#XE5      $ Ub  X8-  OSn	Ub
  XH-   S-
  U-  OSn
US:”  a  [        S5      eUR                  R                  T X)U
S5      $ )zá
Slice the scale tensor appropriately based on the data tensor slicing.
This function calculates how the scale should be sliced when the data tensor
is sliced along a given dimension, taking into account the block structure.
c              3   óN   >#   • U  H  nTU   TR                   U   -  v •  M     g 7f)N)r5   )Ú.0ÚirG   rF   s     €€r   Ú	<genexpr>Ú-_slice_scale_for_dimension.<locals>.<genexpr>”   s$   øé € ÐXÒAW¸A˜
 1™¨¯©°Q©Ö7ÒAWùs   ƒ"%r%   Nz;Slicing with step > 1 is not implemented for scale tensors.)
rA   ÚopsÚatenr5   ÚsliceÚTensorÚtupleÚrangeÚlenÚNotImplementedError)rF   rG   r4   rH   rI   rJ   rR   Úblock_sizesÚblock_size_for_dimÚscale_startÚ	scale_ends   ``         r   Ú_slice_scale_for_dimensionr]   €   sû   ù€ ô 9‰9>‰>€Dð ‡{{jÓ Øz‰z× Ñ  ¨°CÓ>Ð>ô ÕXÄÄsÈ:ÃÔAWÓXÓX€Kà
Œc+ÓÓàˆà$Ñ)Ðà˜QÓð z‰z× Ñ  ¨°CÓ>Ð>ð 6;Ñ5FeÒ1ÈDˆð ‰ð Ñ%¨Ñ)Ð.@Ò@àð 	ð !‹8Ü%ØMóð ð z‰z× Ñ  ¨¸)ÀQÓGÐGr   Úxc                 ó¬   • [        U S5      (       d   S5       e[        U R                  5      SU R                  5       S-
  -  U R                  S   4-   :H  $ )úrChecks if a quantized tensor is rowwise scaled
Args:
    x: quantized tensor (should have `block_size` attribute)
Ú
block_sizeú.Expecting input to have `block_size` attribute)r%   r%   r/   )ÚhasattrrU   ra   r4   r5   ©r^   s    r   Ú_is_rowwise_scaledre   ³   sO   € ô
 1l×#Ñ#ÐUÐ%UÓUÐ#Ü—‘Ó $¨!¯%©%«'°A©+Ñ"6¸!¿'¹'À"¹+¸Ñ"GÑGÐGr   c                 ó„   ^ • [        T S5      (       d   S5       e[        U 4S j[        T R                  5       5       5      $ )r`   ra   rb   c              3   ó”   >#   • U  H=  nTR                   U   S :H  =(       d    TR                   U   TR                  U   :H  v •  M?     g7f)r/   N)ra   r5   )rM   rN   r^   s     €r   rO   Ú(_is_tensorwise_scaled.<locals>.<genexpr>Â   s>   øé € ð ÚHUÀ1ˆ‰Q‰˜2Ñ×> §¡¨a¡°A·G±G¸A±JÑ!>Ô>Êùs   ƒAA)rc   ÚallrV   Úndimrd   s   `r   Ú_is_tensorwise_scaledrk   ¼   s@   ø€ ô
 1l×#Ñ#ÐUÐ%UÓUÐ#Üô ÜHMÈaÏfÉfÌóó ð r   Úgranularityc                 óø  • S nU c  [        5       [        5       4nU$ [        U [         [        45      (       a  X 4nU$ [        U [        [        45      (       a–  [        U 5      S:X  a‡  [        U S   [         [        45      (       a  [        U S   [         [        45      (       d  [        SU  S35      e[        U S   [        U S   5      5      (       d  [        SU  S35      e[        U 5      nU$ [        SU  S35      e)Nr0   r   r%   zInvalid granularity types: ú), only PerTensor or PerRow are supported.zEDifferent granularities for activation and weight are not supported: z#Invalid granularity specification: )r   Ú
isinstancer   rU   ÚlistrW   Ú
ValueErrorÚtype)rl   Úprocessed_granularitys     r   Ú_normalize_granularityrt   Ç   s!  € ð !ÐØÑÜ!*£¬i«kÐ :Ðð( !Ð ô' 
K¤)¬VÐ!4×	5Ñ	5Ø!,Ð :Ðð$ !Ð ô# 
K¤%¬ ×	/Ñ	/´C¸Ó4DÈÓ4Iä{ 1‘~¬	´6Ð':×;Ñ;Ü˜; q™>¬I´vÐ+>×?Ñ?äØ-¨k¨]Ð:cÐdóð ô ˜+ a™.¬$¨{¸1©~Ó*>×?Ñ?ÜØWÐXcÐWdð  eNð  Oóð ô !& kÓ 2Ðð
 !Ð ô Ø1°+°Ð>gÐhó
ð 	
r   Úgranularitiesc                 ó¸   • U  HT  n[        U[        [        45      (       d  [        SU S35      e[	        5       (       a  M>  [        5       (       a  MO   S5       e   g)a  
Validate that the hardware supports the requested granularities.

Args:
    granularities: Tuple of (activation_granularity, weight_granularity)

Raises:
    AssertionError: If hardware doesn't support the requested granularity
    ValueError: If invalid granularity type is provided
zInvalid granularity type: rn   uN   Float8 dynamic quantization requires CUDA compute capability â‰¥8.9 or MI300+.N)ro   r   r   rq   r   r   )ru   Ú_granularitys     r   Ú_check_hardware_supportrx   é   s[   € ó &ˆÜ˜,¬´FÐ(;×<Ñ<ÜØ,¨\¨NÐ:cÐdóð ô !×"Ó"¤h§j£jð 	
Ø\ó	
Ð0ò &r   )NNF)!r   Útypingr   r   r   r   r   rA   Útorchao.float8.float8_utilsr   r	   Útorchao.float8.typesr
   Ú torchao.quantization.granularityr   r   Útorchao.utilsr   r   rT   r   r+   Úintr6   Údtyper   rE   r]   re   rk   rp   rt   rx   r   r   r   Ú<module>r€      sú  ðñ÷ <Õ ;ã ç KÝ /÷÷ð
 
‰€ô Zô  ð Øðàðð %ðð ˆ66ˆ>Ñô	ð4 %§,¡,ð ¸UÀ3ÈÀ8¹_ô ð0 &*Ø!Ø ñ%Øð%àð%ð ð%ð ð	%ð
 —+‘+ð%ð ˜6Ñ"ð%ð 6Ñ
ð%ð ð%ð õ%ðP0HØ<‰<ð0HàS‘	ð0Hð 
ð0Hð ð	0Hð
 
ð0Hð ð0Hð ‡\\ô0HðfH˜%Ÿ,™,ð H¨4ô Hð˜UŸ\™\ð ¨dô ð!ØØØØ. .Ð0Ñ1ØÑ ð"ñ	
ñð!ð ˆ>˜>Ð)Ñ*ô!ðD
Ø˜¨Ð7Ñ8ð
à	õ
r   