ó
    bCi¿©  ã                  ó  • S r SSKJr  SSKrSSKJr  SSKrSSK	J
r
  SSKJrJrJrJrJrJrJr  SSKJrJr  SS	KJrJrJrJrJr  S
SKJr  \R<                  " \5      r Sr!\ " S S\5      5       r" " S S\RF                  RH                  5      r% " S S\RF                  RH                  5      r& " S S\RF                  RH                  5      r' " S S\RF                  RH                  5      r( " S S\RF                  RH                  5      r) " S S\RF                  RH                  5      r* " S S\RF                  RH                  5      r+ " S S\RF                  RH                  5      r, " S S \RF                  RH                  5      r- " S! S"\RF                  RH                  5      r. " S# S$\RF                  RH                  5      r/ " S% S&\RF                  RH                  5      r0 " S' S(\RF                  RH                  5      r1 " S) S*\RF                  RH                  5      r2\ " S+ S,\RF                  RH                  5      5       r3 " S- S.\5      r4S/r5S0r6\" S1\55       " S2 S3\45      5       r7\" S4\55       " S5 S6\4\5      5       r8/ S7Qr9g)8zTF 2.0 Cvt model.é    )ÚannotationsN)Ú	dataclassé   )Ú&TFImageClassifierOutputWithNoAttention)ÚTFModelInputTypeÚTFPreTrainedModelÚTFSequenceClassificationLossÚget_initializerÚkerasÚkeras_serializableÚunpack_inputs)Ú
shape_listÚstable_softmax)ÚModelOutputÚadd_start_docstringsÚ%add_start_docstrings_to_model_forwardÚloggingÚreplace_return_docstringsé   )Ú	CvtConfigr   c                  óD   • \ rS rSr% SrSrS\S'   SrS\S'   SrS\S'   S	r	g)
ÚTFBaseModelOutputWithCLSTokené3   a  
Base class for model's outputs.

Args:
    last_hidden_state (`tf.Tensor` of shape `(batch_size, sequence_length, hidden_size)`):
        Sequence of hidden-states at the output of the last layer of the model.
    cls_token_value (`tf.Tensor` of shape `(batch_size, 1, hidden_size)`):
        Classification token at the output of the last layer of the model.
    hidden_states (`tuple(tf.Tensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
        Tuple of `tf.Tensor` (one for the output of the embeddings + one for the output of each layer) of shape
        `(batch_size, sequence_length, hidden_size)`. Hidden-states of the model at the output of each layer plus
        the initial embedding outputs.
Nútf.Tensor | NoneÚlast_hidden_stateÚcls_token_valueztuple[tf.Tensor, ...] | NoneÚhidden_states© )
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   Ú__annotations__r   r   Ú__static_attributes__r   ó    Úa/home/james-whalen/.local/lib/python3.13/site-packages/transformers/models/cvt/modeling_tf_cvt.pyr   r   3   s+   ‡ ñð +/ÐÐ'Ó.Ø(,€OÐ%Ó,Ø26€MÐ/Ö6r&   r   c                  ó>   ^ • \ rS rSrSrSU 4S jjrSSS jjrSrU =r$ )	ÚTFCvtDropPathéH   z—Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).
References:
    (1) github.com:rwightman/pytorch-image-models
c                ó2   >• [         TU ]  " S0 UD6  Xl        g )Nr   )ÚsuperÚ__init__Ú	drop_prob)Úselfr.   ÚkwargsÚ	__class__s      €r'   r-   ÚTFCvtDropPath.__init__N   s   ø€ Ü‰ÒÑ"˜6Ò"Ø"r&   c                óf  • U R                   S:X  d  U(       d  U$ SU R                   -
  n[        R                  " U5      S   4S[        [        R                  " U5      5      S-
  -  -   nU[        R                  R                  USSU R                  S9-   n[        R                  " U5      nX-  U-  $ )Nç        r   r   )r   )Údtype)r.   ÚtfÚshapeÚlenÚrandomÚuniformÚcompute_dtypeÚfloor)r/   ÚxÚtrainingÚ	keep_probr7   Úrandom_tensors         r'   ÚcallÚTFCvtDropPath.callR   s–   € Ø>‰>˜SÓ ®ØˆHØ˜Ÿ™Ñ&ˆ	Ü—’˜!“˜Q‘Ð! D¬C´·²¸³Ó,<¸qÑ,@Ñ$AÑAˆØ!¤B§I¡I×$5Ñ$5°e¸QÀÈ×I[ÑI[Ð$5Ð$\Ñ\ˆÜŸš Ó/ˆØ‘ Ñ.Ð.r&   )r.   )r.   Úfloat©N)r=   ú	tf.Tensor)	r   r    r!   r"   r#   r-   rA   r%   Ú__classcell__©r1   s   @r'   r)   r)   H   s   ø† ñ÷
#÷/ô /r&   r)   c                  ód   ^ • \ rS rSrSr              SU 4S jjrSS	S jjrS
S jrSrU =r	$ )ÚTFCvtEmbeddingsé\   z-Construct the Convolutional Token Embeddings.c           
     ó–   >• [         T	U ]  " S0 UD6  [        UUUUUUSS9U l        [        R
                  R                  U5      U l        g )NÚconvolution_embeddings)Ú
patch_sizeÚnum_channelsÚ	embed_dimÚstrideÚpaddingÚnamer   )r,   r-   ÚTFCvtConvEmbeddingsrL   r   ÚlayersÚDropoutÚdropout)
r/   ÚconfigrM   rN   rO   rP   rQ   Údropout_rater0   r1   s
            €r'   r-   ÚTFCvtEmbeddings.__init___   sO   ø€ ô 	‰ÒÑ"˜6Ò"Ü&9ØØ!Ø%ØØØØ)ñ'
ˆÔ#ô —|‘|×+Ñ+¨LÓ9ˆr&   c                óF   • U R                  U5      nU R                  X2S9nU$ ©N©r>   )rL   rV   )r/   Úpixel_valuesr>   Úhidden_states       r'   rA   ÚTFCvtEmbeddings.callv   s(   € Ø×2Ñ2°<Ó@ˆØ—|‘| L|ÐDˆØÐr&   c                ó  • U R                   (       a  g SU l         [        U SS 5      bO  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        g g ! , (       d  f       g = f)NTrL   )ÚbuiltÚgetattrr6   Ú
name_scoperL   rR   Úbuild©r/   Úinput_shapes     r'   rd   ÚTFCvtEmbeddings.build{   óe   € Ø::ØØˆŒ
Ü4Ð1°4Ó8ÑDÜ—’˜t×:Ñ:×?Ñ?Õ@Ø×+Ñ+×1Ñ1°$Ô7÷ AÐ@ð Eß@Õ@úó   ÁA8Á8
B)ra   rL   rV   )rW   r   rM   ÚintrN   rj   rO   rj   rP   rj   rQ   rj   rX   rC   ©F)r]   rE   r>   ÚboolÚreturnrE   rD   ©
r   r    r!   r"   r#   r-   rA   rd   r%   rF   rG   s   @r'   rI   rI   \   s^   ø† Ù7ð:àð:ð ð:ð ð	:ð
 ð:ð ð:ð ð:ð ÷:ö.÷
8ò 8r&   rI   c                  ó\   ^ • \ rS rSrSr            SU 4S jjrSS jrS	S jrSrU =r	$ )
rS   é„   zcImage to Convolution Embeddings. This convolutional operation aims to model local spatial contexts.c           
     ó¤  >• [         TU ]  " S	0 UD6  [        R                  R	                  US9U l        [        U[        R                  R                  5      (       a  UOX"4U l
        [        R                  R                  UUUSS[        UR                  5      SS9U l        [        R                  R                  SSS9U l        X0l        X@l        g )
N©rQ   ÚvalidÚchannels_lastÚ
projection)ÚfiltersÚkernel_sizeÚstridesrQ   Údata_formatÚkernel_initializerrR   çñhãˆµøä>Únormalization©ÚepsilonrR   r   )r,   r-   r   rT   ÚZeroPadding2DrQ   Ú
isinstanceÚcollectionsÚabcÚIterablerM   ÚConv2Dr
   Úinitializer_rangeru   ÚLayerNormalizationr|   rN   rO   )	r/   rW   rM   rN   rO   rP   rQ   r0   r1   s	           €r'   r-   ÚTFCvtConvEmbeddings.__init__‡   s¶   ø€ ô 	‰ÒÑ"˜6Ò"Ü—|‘|×1Ñ1¸'Ð1ÐBˆŒÜ(2°:¼{¿¹×?WÑ?W×(XÑ(X™*Ð_iÐ^vˆŒÜŸ,™,×-Ñ-ØØ"ØØØ'Ü.¨v×/GÑ/GÓHØð .ð 
ˆŒô #Ÿ\™\×<Ñ<ÀTÐP_Ð<Ð`ˆÔØ(ÔØ"r&   c                ó  • [        U[        5      (       a  US   nU R                  U R                  U5      5      n[	        U5      u  p#pEX4-  n[
        R                  " XXe4S9nU R                  U5      n[
        R                  " XX4U4S9nU$ )Nr]   ©r7   )r€   Údictru   rQ   r   r6   Úreshaper|   )r/   r]   Ú
batch_sizeÚheightÚwidthrN   Úhidden_sizes          r'   rA   ÚTFCvtConvEmbeddings.call¢   s‰   € Ül¤D×)Ñ)Ø'¨Ñ7ˆLà—‘ t§|¡|°LÓ'AÓBˆô 3=¸\Ó2JÑ/ˆ
˜EØ‘nˆÜ—z’z ,À;Ð6]Ñ^ˆØ×)Ñ)¨,Ó7ˆô —z’z ,À6ÐR^Ð6_Ñ`ˆØÐr&   c                ó"  • U R                   (       a  g SU l         [        U SS 5      b\  [        R                  " U R                  R
                  5         U R                  R                  S S S U R                  /5        S S S 5        [        U SS 5      b\  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  /5        S S S 5        g g ! , (       d  f       Ny= f! , (       d  f       g = f)NTru   r|   )
ra   rb   r6   rc   ru   rR   rd   rN   r|   rO   re   s     r'   rd   ÚTFCvtConvEmbeddings.build²   sÃ   € Ø::ØØˆŒ
Ü4˜ tÓ,Ñ8Ü—’˜tŸ™×3Ñ3Õ4Ø—‘×%Ñ% t¨T°4¸×9JÑ9JÐ&KÔL÷ 5ä4˜¨$Ó/Ñ;Ü—’˜t×1Ñ1×6Ñ6Õ7Ø×"Ñ"×(Ñ(¨$°°d·n±nÐ)EÔF÷ 8Ð7ð <÷ 5Õ4ú÷ 8Õ7ús   Á*C/Â<)D Ã/
C=Ä 
D)ra   rO   r|   rN   rQ   rM   ru   )rW   r   rM   rj   rN   rj   rO   rj   rP   rj   rQ   rj   )r]   rE   rm   rE   rD   rn   rG   s   @r'   rS   rS   „   sV   ø† Ùmð#àð#ð ð#ð ð	#ð
 ð#ð ð#ð ÷#ô6÷ 	Gò 	Gr&   rS   c                  óH   ^ • \ rS rSrSrSU 4S jjrSS	S jjrS
S jrSrU =r	$ )Ú TFCvtSelfAttentionConvProjectioné¾   zConvolutional projection layer.c                ó6  >• [         TU ]  " S
0 UD6  [        R                  R	                  US9U l        [        R                  R                  UU[        UR                  5      SUSSUS9U l	        [        R                  R                  SSSS	9U l        X l        g )Nrr   rs   FÚconvolution)rv   rw   rz   rQ   rx   Úuse_biasrR   Úgroupsr{   gÍÌÌÌÌÌì?r|   )r~   ÚmomentumrR   r   )r,   r-   r   rT   r   rQ   r„   r
   r…   r—   ÚBatchNormalizationr|   rO   )r/   rW   rO   rw   rP   rQ   r0   r1   s          €r'   r-   Ú)TFCvtSelfAttentionConvProjection.__init__Á   s’   ø€ Ü‰ÒÑ"˜6Ò"Ü—|‘|×1Ñ1¸'Ð1ÐBˆŒÜ Ÿ<™<×.Ñ.ØØ#Ü.¨v×/GÑ/GÓHØØØØØð /ð 	
ˆÔô #Ÿ\™\×<Ñ<ÀTÐTWÐ^mÐ<ÐnˆÔØ"r&   c                ód   • U R                  U R                  U5      5      nU R                  XS9nU$ r[   )r—   rQ   r|   ©r/   r^   r>   s      r'   rA   Ú%TFCvtSelfAttentionConvProjection.callÒ   s4   € Ø×'Ñ'¨¯©°\Ó(BÓCˆØ×)Ñ)¨,Ð)ÐJˆØÐr&   c                ó$  • U R                   (       a  g SU l         [        U SS 5      b\  [        R                  " U R                  R
                  5         U R                  R                  S S S U R                  /5        S S S 5        [        U SS 5      b]  [        R                  " U R                  R
                  5         U R                  R                  S S S U R                  /5        S S S 5        g g ! , (       d  f       Nz= f! , (       d  f       g = f)NTr—   r|   )	ra   rb   r6   rc   r—   rR   rd   rO   r|   re   s     r'   rd   Ú&TFCvtSelfAttentionConvProjection.build×   sÇ   € Ø::ØØˆŒ
Ü4˜¨Ó-Ñ9Ü—’˜t×/Ñ/×4Ñ4Õ5Ø× Ñ ×&Ñ&¨¨d°D¸$¿.¹.Ð'IÔJ÷ 6ä4˜¨$Ó/Ñ;Ü—’˜t×1Ñ1×6Ñ6Õ7Ø×"Ñ"×(Ñ(¨$°°d¸D¿N¹NÐ)KÔL÷ 8Ð7ð <÷ 6Õ5ú÷ 8Õ7ús   Á*C0Â<*DÃ0
C>Ä
D)ra   r—   rO   r|   rQ   )
rW   r   rO   rj   rw   rj   rP   rj   rQ   rj   rk   ©r^   rE   r>   rl   rm   rE   rD   rn   rG   s   @r'   r”   r”   ¾   s   ø† Ù)÷#ö"÷
	Mò 	Mr&   r”   c                  ó"   • \ rS rSrSrSS jrSrg)Ú"TFCvtSelfAttentionLinearProjectionéã   z7Linear projection layer used to flatten tokens into 1D.c                óV   • [        U5      u  p#pEX4-  n[        R                  " XXe4S9nU$ )Nr‰   )r   r6   r‹   )r/   r^   rŒ   r   rŽ   rN   r   s          r'   rA   Ú'TFCvtSelfAttentionLinearProjection.callæ   s1   € ä2<¸\Ó2JÑ/ˆ
˜EØ‘nˆÜ—z’z ,À;Ð6]Ñ^ˆØÐr&   r   N©r^   rE   rm   rE   )r   r    r!   r"   r#   rA   r%   r   r&   r'   r¤   r¤   ã   s
   † ÙA÷r&   r¤   c                  ód   ^ • \ rS rSrSr S           SU 4S jjjrS	S
S jjrSS jrSrU =r	$ )ÚTFCvtSelfAttentionProjectionéî   z'Convolutional Projection for Attention.c           	     ór   >• [         TU ]  " S0 UD6  US:X  a  [        XX4USS9U l        [	        5       U l        g )NÚdw_bnÚconvolution_projection©rR   r   )r,   r-   r”   r®   r¤   Úlinear_projection)	r/   rW   rO   rw   rP   rQ   Úprojection_methodr0   r1   s	           €r'   r-   Ú%TFCvtSelfAttentionProjection.__init__ñ   sB   ø€ ô 	‰ÒÑ"˜6Ò"Ø Ó'Ü*JØ ;¸ÐF^ñ+ˆDÔ'ô "DÓ!EˆÕr&   c                óF   • U R                  XS9nU R                  U5      nU$ r[   )r®   r°   rž   s      r'   rA   Ú!TFCvtSelfAttentionProjection.call  s+   € Ø×2Ñ2°<Ð2ÐSˆØ×-Ñ-¨lÓ;ˆØÐr&   c                ó  • U R                   (       a  g SU l         [        U SS 5      bO  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        g g ! , (       d  f       g = f)NTr®   )ra   rb   r6   rc   r®   rR   rd   re   s     r'   rd   Ú"TFCvtSelfAttentionProjection.build  rh   ri   )ra   r®   r°   )r­   )rW   r   rO   rj   rw   rj   rP   rj   rQ   rj   r±   Ústrrk   r¢   rD   rn   rG   s   @r'   rª   rª   î   sf   ø† Ù1ð ")ðFàðFð ðFð ð	Fð
 ðFð ðFð ÷Fð Fö"÷
8ò 8r&   rª   c                  ó†   ^ • \ rS rSrSr S                       S	U 4S jjjrS
S jrSSS jjrSS jrSr	U =r
$ )ÚTFCvtSelfAttentioni  z‘
Self-attention layer. A depth-wise separable convolution operation (Convolutional Projection), is applied for
query, key, and value embeddings.
c           
     ó„  >• [         TU ]  " S0 UD6  US-  U l        XÀl        X0l        X l        [        UUUUUU	S:X  a  SOU	SS9U l        [        UUUUUU	SS9U l        [        UUUUUU	SS9U l	        [        R                  R                  U[        UR                  5      U
SS	S
9U l        [        R                  R                  U[        UR                  5      U
SSS
9U l        [        R                  R                  U[        UR                  5      U
SSS
9U l        [        R                  R%                  U5      U l        g )Ng      à¿ÚavgÚlinearÚconvolution_projection_query)r±   rR   Úconvolution_projection_keyÚconvolution_projection_valueÚzerosÚprojection_query©Úunitsrz   r˜   Úbias_initializerrR   Úprojection_keyÚprojection_valuer   )r,   r-   ÚscaleÚwith_cls_tokenrO   Ú	num_headsrª   r½   r¾   r¿   r   rT   ÚDenser
   r…   rÁ   rÅ   rÆ   rU   rV   )r/   rW   rÉ   rO   rw   Ústride_qÚ	stride_kvÚ	padding_qÚ
padding_kvÚqkv_projection_methodÚqkv_biasÚattention_drop_raterÈ   r0   r1   s                 €r'   r-   ÚTFCvtSelfAttention.__init__  sg  ø€ ô  	‰ÒÑ"˜6Ò"Ø ‘_ˆŒ
Ø,ÔØ"ŒØ"Œä,HØØØØØØ*?À5Ó*H™hÐNcØ/ñ-
ˆÔ)ô +GØØØØØØ3Ø-ñ+
ˆÔ'ô -IØØØØØØ3Ø/ñ-
ˆÔ)ô !&§¡× 2Ñ 2ØÜ.¨v×/GÑ/GÓHØØ$Ø#ð !3ð !
ˆÔô $Ÿl™l×0Ñ0ØÜ.¨v×/GÑ/GÓHØØ$Ø!ð 1ð 
ˆÔô !&§¡× 2Ñ 2ØÜ.¨v×/GÑ/GÓHØØ$Ø#ð !3ð !
ˆÔô —|‘|×+Ñ+Ð,?Ó@ˆr&   c                óÀ   • [        U5      u  p#nU R                  U R                  -  n[        R                  " XX0R                  U4S9n[        R
                  " USS9nU$ )Nr‰   ©r   é   r   r   ©Úperm)r   rO   rÉ   r6   r‹   Ú	transpose)r/   r^   rŒ   r   Ú_Úhead_dims         r'   Ú"rearrange_for_multi_head_attentionÚ5TFCvtSelfAttention.rearrange_for_multi_head_attention_  sU   € Ü%/°Ó%=Ñ"ˆ
 Ø—>‘> T§^¡^Ñ3ˆÜ—z’z ,À;×P^ÑP^Ð`hÐ6iÑjˆÜ—|’| L°|ÑDˆØÐr&   c                óØ  • U R                   (       a  [        R                  " USX#-  /S5      u  pQ[        U5      u  pgn[        R                  " XX#U4S9nU R                  XS9n	U R                  XS9n
U R                  XS9nU R                   (       aC  [        R                  " WU
4SS9n
[        R                  " XY4SS9n	[        R                  " X[4SS9nU R                  U R                  -  nU R                  U R                  U
5      5      n
U R                  U R                  U	5      5      n	U R                  U R                  U5      5      n[        R                  " X©SS9U R                   -  n[#        USS9nU R%                  XäS9n[        R                  " Xë5      n[        U5      u    nnn[        R&                  " US	S
9n[        R                  " XöXpR                  U-  45      nU$ )Nr   r‰   r\   ©ÚaxisT)Útranspose_béÿÿÿÿ)Úlogitsrß   rÔ   rÖ   )rÈ   r6   Úsplitr   r‹   r¾   r½   r¿   ÚconcatrO   rÉ   rÛ   rÁ   rÅ   rÆ   ÚmatmulrÇ   r   rV   rØ   )r/   r^   r   rŽ   r>   Ú	cls_tokenrŒ   r   rN   ÚkeyÚqueryÚvaluerÚ   Úattention_scoreÚattention_probsÚcontextrÙ   s                    r'   rA   ÚTFCvtSelfAttention.callf  s·  € Ø××Ü&(§h¢h¨|¸aÀÁÐ=PÐRSÓ&TÑ#ˆIô 1;¸<Ó0HÑ-ˆ
 Ü—z’z ,À6ÐR^Ð6_Ñ`ˆà×-Ñ-¨lÐ-ÐNˆØ×1Ñ1°,Ð1ÐRˆØ×1Ñ1°,Ð1ÐRˆà××Ü—I’I˜y¨%Ð0°qÑ9ˆEÜ—)’)˜YÐ,°1Ñ5ˆCÜ—I’I˜yÐ0°qÑ9ˆEà—>‘> T§^¡^Ñ3ˆà×7Ñ7¸×8MÑ8MÈeÓ8TÓUˆØ×5Ñ5°d×6IÑ6IÈ#Ó6NÓOˆØ×7Ñ7¸×8MÑ8MÈeÓ8TÓUˆäŸ)š) E¸DÑAÀDÇJÁJÑNˆÜ(°ÀbÑIˆØŸ,™, ˜,ÐJˆä—)’)˜OÓ3ˆä)¨'Ó2Ñˆˆ1ˆk˜1Ü—,’,˜w¨\Ñ:ˆÜ—*’*˜W°;ÇÁÐQYÑ@YÐ&ZÓ[ˆØˆr&   c                óª  • U R                   (       a  g SU l         [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      b[  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  /5        S S S 5        [        U SS 5      b[  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  /5        S S S 5        [        U SS 5      b\  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  /5        S S S 5        g g ! , (       d  f       GN= f! , (       d  f       GNº= f! , (       d  f       GNp= f! , (       d  f       GN= f! , (       d  f       NÁ= f! , (       d  f       g = f)NTr½   r¾   r¿   rÁ   rÅ   rÆ   )ra   rb   r6   rc   r½   rR   rd   r¾   r¿   rÁ   rO   rÅ   rÆ   re   s     r'   rd   ÚTFCvtSelfAttention.buildˆ  sþ  € Ø::ØØˆŒ
Ü4Ð7¸Ó>ÑJÜ—’˜t×@Ñ@×EÑEÕFØ×1Ñ1×7Ñ7¸Ô=÷ Gä4Ð5°tÓ<ÑHÜ—’˜t×>Ñ>×CÑCÕDØ×/Ñ/×5Ñ5°dÔ;÷ Eä4Ð7¸Ó>ÑJÜ—’˜t×@Ñ@×EÑEÕFØ×1Ñ1×7Ñ7¸Ô=÷ Gä4Ð+¨TÓ2Ñ>Ü—’˜t×4Ñ4×9Ñ9Õ:Ø×%Ñ%×+Ñ+¨T°4¸¿¹Ð,HÔI÷ ;ä4Ð)¨4Ó0Ñ<Ü—’˜t×2Ñ2×7Ñ7Õ8Ø×#Ñ#×)Ñ)¨4°°t·~±~Ð*FÔG÷ 9ä4Ð+¨TÓ2Ñ>Ü—’˜t×4Ñ4×9Ñ9Õ:Ø×%Ñ%×+Ñ+¨T°4¸¿¹Ð,HÔI÷ ;Ð:ð ?÷ GÖFú÷ EÖDú÷ GÖFú÷ ;Ö:ú÷ 9Õ8ú÷ ;Õ:úsH   ÁI+Â.I=Ä
JÅ&)J!Ç)J3È8)KÉ+
I:É=
JÊ
JÊ!
J0Ê3
KË
K)ra   r¾   r½   r¿   rV   rO   rÉ   rÅ   rÁ   rÆ   rÇ   rÈ   ©T)rW   r   rÉ   rj   rO   rj   rw   rj   rË   rj   rÌ   rj   rÍ   rj   rÎ   rj   rÏ   r·   rÐ   rl   rÑ   rC   rÈ   rl   r¨   rk   ©
r^   rE   r   rj   rŽ   rj   r>   rl   rm   rE   rD   )r   r    r!   r"   r#   r-   rÛ   rA   rd   r%   rF   rG   s   @r'   r¹   r¹     sÁ   ø† ñð$  $ðGAàðGAð ðGAð ð	GAð
 ðGAð ðGAð ðGAð ðGAð ðGAð  #ðGAð ðGAð #ðGAð ÷GAð GAôRö ÷DJò Jr&   r¹   c                  óH   ^ • \ rS rSrSrSU 4S jjrSS	S jjrS
S jrSrU =r	$ )ÚTFCvtSelfOutputi   zOutput of the Attention layer .c                óè   >• [         TU ]  " S0 UD6  [        R                  R	                  U[        UR                  5      SS9U l        [        R                  R                  U5      U l	        X l
        g ©NÚdense)rÃ   rz   rR   r   )r,   r-   r   rT   rÊ   r
   r…   rö   rU   rV   rO   )r/   rW   rO   Ú	drop_rater0   r1   s        €r'   r-   ÚTFCvtSelfOutput.__init__£  s^   ø€ Ü‰ÒÑ"˜6Ò"Ü—\‘\×'Ñ'Ø´À×@XÑ@XÓ0YÐ`gð (ð 
ˆŒ
ô —|‘|×+Ñ+¨IÓ6ˆŒØ"r&   c                óB   • U R                  US9nU R                  XS9nU$ ©N)Úinputs)rû   r>   ©rö   rV   rž   s      r'   rA   ÚTFCvtSelfOutput.call«  s(   € Ø—z‘z¨zÐ6ˆØ—|‘|¨<|ÐKˆØÐr&   c                ó,  • U R                   (       a  g SU l         [        U SS 5      b\  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  /5        S S S 5        g g ! , (       d  f       g = f©NTrö   ©ra   rb   r6   rc   rö   rR   rd   rO   re   s     r'   rd   ÚTFCvtSelfOutput.build°  óg   € Ø::ØØˆŒ
Ü4˜ $Ó'Ñ3Ü—’˜tŸz™zŸ™Õ/Ø—
‘
× Ñ  $¨¨d¯n©nÐ!=Ô>÷ 0Ð/ð 4ß/Õ/úó   Á)BÂ
B)ra   rö   rV   rO   )rW   r   rO   rj   r÷   rC   rk   r¢   rD   rn   rG   s   @r'   ró   ró      s   ø† Ù)÷#ö÷
?ò ?r&   ró   c                  ó†   ^ • \ rS rSrSr S                         S	U 4S jjjrS rS
SS jjrSS jrSr	U =r
$ )ÚTFCvtAttentioni¹  zDAttention layer. First chunk of the convolutional transformer block.c                óz   >• [         TU ]  " S0 UD6  [        UUUUUUUUU	U
UUSS9U l        [	        XUSS9U l        g )NÚ	attentionr¯   Úoutputr   )r,   r-   r¹   r  ró   Údense_output)r/   rW   rÉ   rO   rw   rË   rÌ   rÍ   rÎ   rÏ   rÐ   rÑ   r÷   rÈ   r0   r1   s                  €r'   r-   ÚTFCvtAttention.__init__¼  s[   ø€ ô" 	‰ÒÑ"˜6Ò"Ü+ØØØØØØØØØ!ØØØØñ
ˆŒô ,¨F¸yÈxÑXˆÕr&   c                ó   • [         erD   )ÚNotImplementedError)r/   Úheadss     r'   Úprune_headsÚTFCvtAttention.prune_headsß  s   € Ü!Ð!r&   c                óD   • U R                  XX4S9nU R                  XTS9nU$ r[   )r  r	  )r/   r^   r   rŽ   r>   Úself_outputÚattention_outputs          r'   rA   ÚTFCvtAttention.callâ  s.   € Ø—n‘n \¸5nÐTˆØ×,Ñ,¨[Ð,ÐLÐØÐr&   c                óì  • U R                   (       a  g SU l         [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      bO  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        g g ! , (       d  f       Nl= f! , (       d  f       g = f)NTr  r	  )ra   rb   r6   rc   r  rR   rd   r	  re   s     r'   rd   ÚTFCvtAttention.buildç  s©   € Ø::ØØˆŒ
Ü4˜ dÓ+Ñ7Ü—’˜tŸ~™~×2Ñ2Õ3Ø—‘×$Ñ$ TÔ*÷ 4ä4˜¨Ó.Ñ:Ü—’˜t×0Ñ0×5Ñ5Õ6Ø×!Ñ!×'Ñ'¨Ô-÷ 7Ð6ð ;÷ 4Õ3ú÷ 7Õ6ús   ÁCÂ.C%Ã
C"Ã%
C3)r  ra   r	  rð   )rW   r   rÉ   rj   rO   rj   rw   rj   rË   rj   rÌ   rj   rÍ   rj   rÎ   rj   rÏ   r·   rÐ   rl   rÑ   rC   r÷   rC   rÈ   rl   rk   )r^   rE   r   rj   rŽ   rj   r>   rl   rD   )r   r    r!   r"   r#   r-   r  rA   rd   r%   rF   rG   s   @r'   r  r  ¹  s¹   ø† ÙNð   $ð!Yàð!Yð ð!Yð ð	!Yð
 ð!Yð ð!Yð ð!Yð ð!Yð ð!Yð  #ð!Yð ð!Yð #ð!Yð ð!Yð ÷!Yð !YòF"ö ÷
	.ò 	.r&   r  c                  óD   ^ • \ rS rSrSrSU 4S jjrSS jrS	S jrSrU =r	$ )
ÚTFCvtIntermediateió  zNIntermediate dense layer. Second chunk of the convolutional transformer block.c                ó¸   >• [         TU ]  " S0 UD6  [        R                  R	                  [        X#-  5      [        UR                  5      SSS9U l        X l	        g )NÚgelurö   )rÃ   rz   Ú
activationrR   r   )
r,   r-   r   rT   rÊ   rj   r
   r…   rö   rO   )r/   rW   rO   Ú	mlp_ratior0   r1   s        €r'   r-   ÚTFCvtIntermediate.__init__ö  sT   ø€ Ü‰ÒÑ"˜6Ò"Ü—\‘\×'Ñ'ÜiÑ+Ó,Ü.¨v×/GÑ/GÓHØØð	 (ð 
ˆŒ
ð #r&   c                ó(   • U R                  U5      nU$ rD   )rö   )r/   r^   s     r'   rA   ÚTFCvtIntermediate.call   s   € Ø—z‘z ,Ó/ˆØÐr&   c                ó,  • U R                   (       a  g SU l         [        U SS 5      b\  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  /5        S S S 5        g g ! , (       d  f       g = frÿ   r   re   s     r'   rd   ÚTFCvtIntermediate.build  r  r  )ra   rö   rO   )rW   r   rO   rj   r  rj   r¨   rD   rn   rG   s   @r'   r  r  ó  s   ø† ÙX÷#ô÷?ò ?r&   r  c                  óH   ^ • \ rS rSrSrSU 4S jjrSS	S jjrS
S jrSrU =r	$ )ÚTFCvtOutputi  zm
Output of the Convolutional Transformer Block (last chunk). It consists of a MLP and a residual connection.
c                óô   >• [         TU ]  " S0 UD6  [        R                  R	                  U[        UR                  5      SS9U l        [        R                  R                  U5      U l	        X l
        X0l        g rõ   )r,   r-   r   rT   rÊ   r
   r…   rö   rU   rV   rO   r  )r/   rW   rO   r  r÷   r0   r1   s         €r'   r-   ÚTFCvtOutput.__init__  sc   ø€ Ü‰ÒÑ"˜6Ò"Ü—\‘\×'Ñ'Ø´À×@XÑ@XÓ0YÐ`gð (ð 
ˆŒ
ô —|‘|×+Ñ+¨IÓ6ˆŒØ"ŒØ"r&   c                óJ   • U R                  US9nU R                  XS9nX-   nU$ rú   rü   )r/   r^   Úinput_tensorr>   s       r'   rA   ÚTFCvtOutput.call  s0   € Ø—z‘z¨zÐ6ˆØ—|‘|¨<|ÐKˆØ#Ñ2ˆØÐr&   c           	     óX  • U R                   (       a  g SU l         [        U SS 5      br  [        R                  " U R                  R
                  5         U R                  R                  S S [        U R                  U R                  -  5      /5        S S S 5        g g ! , (       d  f       g = frÿ   )
ra   rb   r6   rc   rö   rR   rd   rj   rO   r  re   s     r'   rd   ÚTFCvtOutput.build!  su   € Ø::ØØˆŒ
Ü4˜ $Ó'Ñ3Ü—’˜tŸz™zŸ™Õ/Ø—
‘
× Ñ  $¨¬c°$·.±.À4Ç>Á>Ñ2QÓ.RÐ!SÔT÷ 0Ð/ð 4ß/Õ/ús   Á?BÂ
B))ra   rö   rV   rO   r  )rW   r   rO   rj   r  rj   r÷   rj   rk   )r^   rE   r&  rE   r>   rl   rm   rE   rD   rn   rG   s   @r'   r"  r"    s   ø† ñ÷#ö÷Uò Ur&   r"  c                  óˆ   ^ • \ rS rSrSr S                             SU 4S jjjrS	S
S jjrSS jrSrU =r	$ )Ú
TFCvtLayeri*  a  
Convolutional Transformer Block composed by attention layers, normalization and multi-layer perceptrons (mlps). It
consists of 3 chunks : an attention layer, an intermediate dense layer and an output layer. This corresponds to the
`Block` class in the original implementation.
c                óš  >• [         TU ]  " S0 UD6  [        UUUUUUUUU	U
UUUSS9U l        [	        XUSS9U l        [        XXÜSS9U l        US:”  a
  [        USS9O[        R                  R                  SSS9U l        [        R                  R                  SS	S
9U l        [        R                  R                  SSS
9U l        X0l        g )Nr  r¯   Úintermediater  r4   Ú	drop_pathr¼   r{   Úlayernorm_beforer}   Úlayernorm_afterr   )r,   r-   r  r  r  r-  r"  r	  r)   r   rT   Ú
Activationr.  r†   r/  r0  rO   )r/   rW   rÉ   rO   rw   rË   rÌ   rÍ   rÎ   rÏ   rÐ   rÑ   r÷   r  Údrop_path_raterÈ   r0   r1   s                    €r'   r-   ÚTFCvtLayer.__init__1  sæ   ø€ ô& 	‰ÒÑ"˜6Ò"Ü'ØØØØØØØØØ!ØØØØØñ
ˆŒô  .¨fÀÐQ_Ñ`ˆÔÜ'¨¸9ÐV^Ñ_ˆÔð  Ó#ô ˜.¨{Ò;ä—‘×(Ñ(¨¸Ð(ÐDð 	Œô !&§¡× ?Ñ ?ÈÐSeÐ ?Ð fˆÔÜ$Ÿ|™|×>Ñ>ÀtÐRcÐ>ÐdˆÔØ"r&   c                óð   • U R                  U R                  U5      X#US9nU R                  XTS9nXQ-   nU R                  U5      nU R	                  U5      nU R                  Xa5      nU R                  XdS9nU$ r[   )r  r/  r.  r0  r-  r	  )r/   r^   r   rŽ   r>   r  Úlayer_outputs          r'   rA   ÚTFCvtLayer.callb  s‰   € àŸ>™>¨$×*?Ñ*?ÀÓ*MÈvÐgo˜>ÐpÐØŸ>™>Ð*:˜>ÐNÐð (Ñ6ˆð ×+Ñ+¨LÓ9ˆØ×(Ñ(¨Ó6ˆð ×(Ñ(¨ÓDˆØ—~‘~ l~ÐFˆØÐr&   c                ó  • U R                   (       a  g SU l         [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      b[  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  /5        S S S 5        [        U SS 5      b\  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  /5        S S S 5        g g ! , (       d  f       GN÷= f! , (       d  f       GN­= f! , (       d  f       GNc= f! , (       d  f       GN= f! , (       d  f       NÁ= f! , (       d  f       g = f)NTr  r-  r	  r.  r/  r0  )ra   rb   r6   rc   r  rR   rd   r-  r	  r.  r/  rO   r0  re   s     r'   rd   ÚTFCvtLayer.builds  sá  € Ø::ØØˆŒ
Ü4˜ dÓ+Ñ7Ü—’˜tŸ~™~×2Ñ2Õ3Ø—‘×$Ñ$ TÔ*÷ 4ä4˜¨Ó.Ñ:Ü—’˜t×0Ñ0×5Ñ5Õ6Ø×!Ñ!×'Ñ'¨Ô-÷ 7ä4˜¨Ó.Ñ:Ü—’˜t×0Ñ0×5Ñ5Õ6Ø×!Ñ!×'Ñ'¨Ô-÷ 7ä4˜ dÓ+Ñ7Ü—’˜tŸ~™~×2Ñ2Õ3Ø—‘×$Ñ$ TÔ*÷ 4ä4Ð+¨TÓ2Ñ>Ü—’˜t×4Ñ4×9Ñ9Õ:Ø×%Ñ%×+Ñ+¨T°4¸¿¹Ð,HÔI÷ ;ä4Ð*¨DÓ1Ñ=Ü—’˜t×3Ñ3×8Ñ8Õ9Ø×$Ñ$×*Ñ*¨D°$¸¿¹Ð+GÔH÷ :Ð9ð >÷ 4Ö3ú÷ 7Ö6ú÷ 7Ö6ú÷ 4Ö3ú÷ ;Õ:ú÷ :Õ9úsH   ÁIÂ.I0Ä
JÅ&JÇ)J&È+)J7É
I-É0
I?Ê
JÊ
J#Ê&
J4Ê7
K)r  ra   r	  r.  rO   r-  r0  r/  rð   )rW   r   rÉ   rj   rO   rj   rw   rj   rË   rj   rÌ   rj   rÍ   rj   rÎ   rj   rÏ   r·   rÐ   rl   rÑ   rC   r÷   rC   r  rC   r2  rC   rÈ   rl   rk   rñ   rD   rn   rG   s   @r'   r+  r+  *  s½   ø† ñð,  $ð!/#àð/#ð ð/#ð ð	/#ð
 ð/#ð ð/#ð ð/#ð ð/#ð ð/#ð  #ð/#ð ð/#ð #ð/#ð ð/#ð ð/#ð ð/#ð  ÷!/#ð /#öb÷"Iò Ir&   r+  c                  óH   ^ • \ rS rSrSrSU 4S jjrSS	S jjrS
S jrSrU =r	$ )Ú
TFCvtStagei‹  a+  
Cvt stage (encoder block). Each stage has 2 parts :
- (1) A Convolutional Token Embedding layer
- (2) A Convolutional Transformer Block (layer).
The classification token is added only in the last stage.

Args:
    config ([`CvtConfig`]): Model configuration class.
    stage (`int`): Stage number.
c                ó¸  >• [         TU ]  " S0 UD6  Xl        X l        U R                  R                  U R                     (       aN  U R                  SSU R                  R                  S   4[        U R                  R                  5      SSS9U l        [        U R                  UR                  U R                     U R                  S:X  a  UR                  OUR                  U R                  S-
     UR                  U R                     UR                  U R                     UR                  U R                     UR                  U R                     SS9U l        [         R"                  " S	UR$                  U R                     UR&                  U   5      nU Vs/ s H   oUR)                  5       R+                  5       PM"     nn[-        UR&                  U R                     5       Vs/ s GHX  n[/        U4UR0                  U R                     UR                  U R                     UR2                  U R                     UR4                  U R                     UR6                  U R                     UR8                  U R                     UR:                  U R                     UR<                  U R                     UR>                  U R                     UR@                  U R                     UR                  U R                     URB                  U R                     X@R                     UR                  U R                     S
U 3S.6PGM[     snU l"        g s  snf s  snf )Nr   rá   Tzcvt.encoder.stages.2.cls_token)r7   ÚinitializerÚ	trainablerR   r   Ú	embedding)rM   rN   rP   rO   rQ   rX   rR   r4   zlayers.)rÉ   rO   rw   rË   rÌ   rÍ   rÎ   rÏ   rÐ   rÑ   r÷   r  r2  rÈ   rR   r   )#r,   r-   rW   Ústageræ   Ú
add_weightrO   r
   r…   rI   Úpatch_sizesrN   Úpatch_strideÚpatch_paddingr÷   r>  r6   Úlinspacer2  ÚdepthÚnumpyÚitemÚranger+  rÉ   Ú
kernel_qkvrË   rÌ   rÍ   rÎ   rÏ   rÐ   rÑ   r  rT   )r/   rW   r?  r0   Údrop_path_ratesr=   Újr1   s          €r'   r-   ÚTFCvtStage.__init__—  s¬  ø€ Ü‰ÒÑ"˜6Ò"ØŒØŒ
Ø;‰;× Ñ  §¡×,Ø!Ÿ_™_Ø˜!˜TŸ[™[×2Ñ2°2Ñ6Ð7Ü+¨D¯K©K×,IÑ,IÓJØØ5ð	 -ð ˆDŒNô )ØK‰KØ×)Ñ)¨$¯*©*Ñ5Ø04·
±
¸a³˜×,Ò,ÀV×EUÑEUÐVZ×V`ÑV`ÐcdÑVdÑEeØ×&Ñ& t§z¡zÑ2Ø×&Ñ& t§z¡zÑ2Ø×(Ñ(¨¯©Ñ4Ø×)Ñ)¨$¯*©*Ñ5Øñ	
ˆŒô Ÿ+š+ c¨6×+@Ñ+@ÀÇÁÑ+LÈfÏlÉlÐ[`ÑNaÓbˆÙ5DÓE²_°Ÿ7™7›9Ÿ>™>Ö+±_ˆÐEô( ˜6Ÿ<™<¨¯
©
Ñ3Ô4ó'
ó& 5ô% Øðà ×*Ñ*¨4¯:©:Ñ6Ø ×*Ñ*¨4¯:©:Ñ6Ø"×-Ñ-¨d¯j©jÑ9ØŸ™¨¯©Ñ4Ø ×*Ñ*¨4¯:©:Ñ6Ø ×*Ñ*¨4¯:©:Ñ6Ø!×,Ñ,¨T¯Z©ZÑ8Ø&,×&BÑ&BÀ4Ç:Á:Ñ&NØŸ™¨¯©Ñ4Ø$*×$>Ñ$>¸t¿z¹zÑ$JØ ×*Ñ*¨4¯:©:Ñ6Ø ×*Ñ*¨4¯:©:Ñ6Ø.¯z©zÑ:Ø%×/Ñ/°·
±
Ñ;Ø˜q˜c]ö!ñ$ 5ñ'
ˆùò Fùò
s   Æ'MÇ)E Mc                ó,  • S nU R                  X5      n[        U5      u  pEpgXV-  n[        R                  " XX‡4S9nU R                  R
                  U R                     (       a6  [        R                  " U R
                  USS9n[        R                  " X14SS9nU R                   H  n	U	" XXbS9n
U
nM     U R                  R
                  U R                     (       a  [        R                  " USXV-  /S5      u  p1[        R                  " XXVU4S9nX4$ )Nr‰   r   )Úrepeatsrß   r   rÞ   r\   )r>  r   r6   r‹   rW   ræ   r?  Úrepeaträ   rT   rã   )r/   r^   r>   ræ   rŒ   r   rŽ   rN   r   ÚlayerÚlayer_outputss              r'   rA   ÚTFCvtStage.callÆ  sô   € Øˆ	Ø—~‘~ lÓ=ˆô 3=¸\Ó2JÑ/ˆ
˜EØ‘nˆÜ—z’z ,À;Ð6]Ñ^ˆà;‰;× Ñ  §¡×,ÜŸ	š	 $§.¡.¸*È1ÑMˆIÜŸ9š9 iÐ%>ÀQÑGˆLà—[”[ˆEÙ! ,¸ÑQˆMØ(ŠLñ !ð ;‰;× Ñ  §¡×,Ü&(§h¢h¨|¸aÀÁÐ=PÐRSÓ&TÑ#ˆIô —z’z ,À6ÐR^Ð6_Ñ`ˆØÐ&Ð&r&   c                óì  • U R                   (       a  g SU l         [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      bN  U R                   H=  n[        R                  " UR
                  5         UR                  S 5        S S S 5        M?     g g ! , (       d  f       Nk= f! , (       d  f       Mc  = f)NTr>  rT   )ra   rb   r6   rc   r>  rR   rd   rT   ©r/   rf   rP  s      r'   rd   ÚTFCvtStage.buildÞ  s§   € Ø::ØØˆŒ
Ü4˜ dÓ+Ñ7Ü—’˜tŸ~™~×2Ñ2Õ3Ø—‘×$Ñ$ TÔ*÷ 4ä4˜ 4Ó(Ñ4ØŸœÜ—]’] 5§:¡:Õ.Ø—K‘K Ô%÷ /Ñ.ò %ð 5÷ 4Õ3ú÷ /Ö.ús   ÁCÂ3C$Ã
C!Ã$
C3	)ra   ræ   rW   r>  rT   r?  )rW   r   r?  rj   rk   )r^   rE   r>   rl   rD   rn   rG   s   @r'   r:  r:  ‹  s   ø† ñ	÷-
ö^'÷0
&ò 
&r&   r:  c                  ód   ^ • \ rS rSrSr\rSU 4S jjr   S         S	S jjrS
S jr	Sr
U =r$ )ÚTFCvtEncoderië  zÎ
Convolutional Vision Transformer encoder. CVT has 3 stages of encoder blocks with their respective number of layers
(depth) being 1, 2 and 10.

Args:
    config ([`CvtConfig`]): Model configuration class.
c           	     óº   >• [         TU ]  " S0 UD6  Xl        [        [	        UR
                  5      5       Vs/ s H  n[        XSU 3S9PM     snU l        g s  snf )Nzstages.r¯   r   )r,   r-   rW   rH  r8   rE  r:  Ústages)r/   rW   r0   Ú	stage_idxr1   s       €r'   r-   ÚTFCvtEncoder.__init__ö  sY   ø€ Ü‰ÒÑ"˜6Ò"ØŒäW\Ô]`Ðag×amÑamÓ]nÔWoó
ÚWoÈ)ŒJv°¸¸Ð/DÔEÑWoñ
ˆùò 
s   ¸Ac                óZ  • U(       a  SOS nUn[         R                  " USS9nS n[        U R                  5       H  u  p‰U	" XdS9u  pgU(       d  M  XV4-   nM     [         R                  " USS9nU(       a  [	        S U 5       5      nU(       d  [	        S XgU4 5       5      $ [        UUUS9$ )	Nr   )r   rÕ   r   r   rÖ   r\   ©r   r   r   rÕ   c              3  óL   #   • U  H  n[         R                  " US S9v •  M     g7f)r]  rÖ   N)r6   rØ   )Ú.0Úhss     r'   Ú	<genexpr>Ú$TFCvtEncoder.call.<locals>.<genexpr>  s   é € Ð%fÒTeÈb¤b§l¢l°2¸LÖ&IÒTeùs   ‚"$c              3  ó.   #   • U  H  oc  M  Uv •  M     g 7frD   r   )r_  Úvs     r'   ra  rb    s   é € ÐbÒ$P˜qŸ™Ò$Pùs   ‚Œ	©r   r   r   )r6   rØ   Ú	enumeraterY  Útupler   )
r/   r]   Úoutput_hidden_statesÚreturn_dictr>   Úall_hidden_statesr^   ræ   rÙ   Ústage_modules
             r'   rA   ÚTFCvtEncoder.callý  sµ   € ö #7™B¸DÐØ#ˆô —|’| L°|ÑDˆàˆ	Ü!*¨4¯;©;Ö!7ÑˆAÙ&2°<Ñ&SÑ#ˆLß#Ð#Ø$5¸Ñ$GÒ!ñ "8ô —|’| L°|ÑDˆÞÜ %Ñ%fÑTeÓ%fÓ fÐæÜÑb \Ð>OÑ$PÓbÓbÐbä,Ø*Ø%Ø+ñ
ð 	
r&   c                ó  • U R                   (       a  g SU l         [        U SS 5      bN  U R                   H=  n[        R                  " UR
                  5         UR                  S 5        S S S 5        M?     g g ! , (       d  f       MR  = f)NTrY  )ra   rb   rY  r6   rc   rR   rd   rT  s      r'   rd   ÚTFCvtEncoder.build  s`   € Ø::ØØˆŒ
Ü4˜ 4Ó(Ñ4ØŸœÜ—]’] 5§:¡:Õ.Ø—K‘K Ô%÷ /Ñ.ò %ð 5ç.Ö.ús   ÁA7Á7
B	)ra   rW   rY  ©rW   r   )FTF)
r]   r   rh  úbool | Noneri  rp  r>   rp  rm   ú0TFBaseModelOutputWithCLSToken | tuple[tf.Tensor]rD   )r   r    r!   r"   r#   r   Úconfig_classr-   rA   rd   r%   rF   rG   s   @r'   rW  rW  ë  s_   ø† ñð €L÷
ð -2Ø#'Ø %ð
à&ð
ð *ð
ð !ð	
ð
 ð
ð 
:õ
÷B&ò &r&   rW  c                  óp   ^ • \ rS rSrSr\rSU 4S jjr\    S         S	S jj5       r	S
S jr
SrU =r$ )ÚTFCvtMainLayeri(  zConstruct the Cvt model.c                óP   >• [         TU ]  " S0 UD6  Xl        [        USS9U l        g )NÚencoderr¯   r   )r,   r-   rW   rW  rv  )r/   rW   r0   r1   s      €r'   r-   ÚTFCvtMainLayer.__init__.  s&   ø€ Ü‰ÒÑ"˜6Ò"ØŒÜ# F°Ñ;ˆr&   c                óª   • Uc  [        S5      eU R                  UUUUS9nUS   nU(       d	  U4USS  -   $ [        UUR                  UR                  S9$ )Nú You have to specify pixel_values©rh  ri  r>   r   r   re  )Ú
ValueErrorrv  r   r   r   )r/   r]   rh  ri  r>   Úencoder_outputsÚsequence_outputs          r'   rA   ÚTFCvtMainLayer.call3  s{   € ð ÑÜÐ?Ó@Ð@àŸ,™,ØØ!5Ø#Øð	 'ð 
ˆð *¨!Ñ,ˆæØ#Ð%¨¸¸Ð(;Ñ;Ð;ä,Ø-Ø+×;Ñ;Ø)×7Ñ7ñ
ð 	
r&   c                ó  • U R                   (       a  g SU l         [        U SS 5      bO  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        g g ! , (       d  f       g = f)NTrv  )ra   rb   r6   rc   rv  rR   rd   re   s     r'   rd   ÚTFCvtMainLayer.buildP  s^   € Ø::ØØˆŒ
Ü4˜ DÓ)Ñ5Ü—’˜tŸ|™|×0Ñ0Õ1Ø—‘×"Ñ" 4Ô(÷ 2Ð1ð 6ß1Õ1úri   )ra   rW   rv  ro  ©NNNF)
r]   zTFModelInputType | Nonerh  rp  ri  rp  r>   rp  rm   rq  rD   )r   r    r!   r"   r#   r   rr  r-   r   rA   rd   r%   rF   rG   s   @r'   rt  rt  (  sl   ø† á"à€L÷<ð
 ð 15Ø,0Ø#'Ø %ð
à-ð
ð *ð
ð !ð	
ð
 ð
ð 
:ô
ó ð
÷8)ò )r&   rt  c                  ó$   • \ rS rSrSr\rSrSrSr	g)ÚTFCvtPreTrainedModeliY  zz
An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained
models.
Úcvtr]   r   N)
r   r    r!   r"   r#   r   rr  Úbase_model_prefixÚmain_input_namer%   r   r&   r'   rƒ  rƒ  Y  s   † ñð
 €LØÐØ$ƒOr&   rƒ  aØ  

    This model inherits from [`TFPreTrainedModel`]. Check the superclass documentation for the generic methods the
    library implements for all its model (such as downloading or saving, resizing the input embeddings, pruning heads
    etc.)

    This model is also a [keras.Model](https://www.tensorflow.org/api_docs/python/tf/keras/Model) subclass. Use it
    as a regular TF 2.0 Keras Model and refer to the TF 2.0 documentation for all matter related to general usage and
    behavior.

    <Tip>

    TF 2.0 models accepts two formats as inputs:

    - having all inputs as keyword arguments (like PyTorch models), or
    - having all inputs as a list, tuple or dict in the first positional arguments.

    This second option is useful when using [`keras.Model.fit`] method which currently requires having all the
    tensors in the first argument of the model call function: `model(inputs)`.

    </Tip>

    Args:
        config ([`CvtConfig`]): Model configuration class with all the parameters of the model.
            Initializing with a config file does not load the weights associated with the model, only the
            configuration. Check out the [`~TFPreTrainedModel.from_pretrained`] method to load the model weights.
al  
    Args:
        pixel_values (`np.ndarray`, `tf.Tensor`, `list[tf.Tensor]` ``dict[str, tf.Tensor]` or `dict[str, np.ndarray]` and each example must have the shape `(batch_size, num_channels, height, width)`):
            Pixel values. Pixel values can be obtained using [`AutoImageProcessor`]. See [`CvtImageProcessor.__call__`]
            for details.

        output_hidden_states (`bool`, *optional*):
            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
            more detail. This argument can be used only in eager mode, in graph mode the value in the config will be
            used instead.
        return_dict (`bool`, *optional*):
            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple. This argument can be used in
            eager mode, in graph mode the value will always be set to True.
        training (`bool`, *optional*, defaults to `False``):
            Whether or not to use the model in training mode (some modules like dropout modules have different
            behaviors between training and evaluation).
z]The bare Cvt Model transformer outputting raw hidden-states without any specific head on top.c                  ó’   ^ • \ rS rSrSU 4S jjr\\" \5      \" \	\
S9    S         S	S jj5       5       5       rS
S jrSrU =r$ )Ú
TFCvtModeli“  c                óL   >• [         TU ]  " U/UQ70 UD6  [        USS9U l        g )Nr„  r¯   )r,   r-   rt  r„  ©r/   rW   rû   r0   r1   s       €r'   r-   ÚTFCvtModel.__init__˜  s(   ø€ Ü‰Ò˜Ð3 &Ò3¨FÒ3ä! &¨uÑ5ˆr&   ©Úoutput_typerr  c                óº   • Uc  [        S5      eU R                  UUUUS9nU(       d  US   4USS -   $ [        UR                  UR                  UR
                  S9$ )a'  
Returns:

Examples:

```python
>>> from transformers import AutoImageProcessor, TFCvtModel
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/cvt-13")
>>> model = TFCvtModel.from_pretrained("microsoft/cvt-13")

>>> inputs = image_processor(images=image, return_tensors="tf")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
```Nry  )r]   rh  ri  r>   r   r   re  )r{  r„  r   r   r   r   )r/   r]   rh  ri  r>   Úoutputss         r'   rA   ÚTFCvtModel.call  sy   € ð> ÑÜÐ?Ó@Ð@à—(‘(Ø%Ø!5Ø#Øð	 ð 
ˆö Ø˜A‘J= 7¨1¨2 ;Ñ.Ð.ä,Ø%×7Ñ7Ø#×3Ñ3Ø!×/Ñ/ñ
ð 	
r&   c                ó  • U R                   (       a  g SU l         [        U SS 5      bO  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        g g ! , (       d  f       g = f)NTr„  )ra   rb   r6   rc   r„  rR   rd   re   s     r'   rd   ÚTFCvtModel.buildÏ  sZ   € Ø::ØØˆŒ
Ü4˜ Ó%Ñ1Ü—’˜tŸx™xŸ}™}Õ-Ø—‘—‘˜tÔ$÷ .Ð-ð 2ß-Õ-úri   )ra   r„  ro  r  )
r]   r   rh  rp  ri  rp  r>   rp  rm   rq  rD   )r   r    r!   r"   r-   r   r   ÚTFCVT_INPUTS_DOCSTRINGr   r   Ú_CONFIG_FOR_DOCrA   rd   r%   rF   rG   s   @r'   rˆ  rˆ  “  s†   ø† ÷
6ð
 Ù*Ð+AÓBÙÐ+HÐWfÑgð *.Ø,0Ø#'Ø %ð-
à&ð-
ð *ð-
ð !ð	-
ð
 ð-
ð 
:ô-
ó hó Có ð-
÷^%ò %r&   rˆ  z¤
    Cvt Model transformer with an image classification head on top (a linear layer on top of the final hidden state of
    the [CLS] token) e.g. for ImageNet.
    c                  ó˜   ^ • \ rS rSrSU 4S jjr\\" \5      \" \	\
S9     S           S	S jj5       5       5       rS
S jrSrU =r$ )ÚTFCvtForImageClassificationiØ  c                óF  >• [         TU ]  " U/UQ70 UD6  UR                  U l        [        USS9U l        [
        R                  R                  SSS9U l        [
        R                  R                  UR                  [        UR                  5      SSSS	9U l        Xl        g )
Nr„  r¯   r{   Ú	layernormr}   TrÀ   Ú
classifierrÂ   )r,   r-   Ú
num_labelsrt  r„  r   rT   r†   r˜  rÊ   r
   r…   r™  rW   rŠ  s       €r'   r-   Ú$TFCvtForImageClassification.__init__à  s”   ø€ Ü‰Ò˜Ð3 &Ò3¨FÒ3à ×+Ñ+ˆŒÜ! &¨uÑ5ˆŒäŸ™×8Ñ8ÀÈKÐ8ÐXˆŒô  Ÿ,™,×,Ñ,Ø×#Ñ#Ü.¨v×/GÑ/GÓHØØ$Øð -ð 
ˆŒð r&   rŒ  c                ó  • U R                  UUUUS9nUS   nUS   nU R                  R                  S   (       a  U R                  U5      nOM[	        U5      u  pšp¼[
        R                  " XyX«U-  4S9n[
        R                  " USS9nU R                  U5      n[
        R                  " USS9nU R                  U5      nUc  S	OU R                  X.S
9nU(       d  U4USS	 -   nUb  U4U-   $ U$ [        XþUR                  S9$ )a{  
labels (`tf.Tensor` or `np.ndarray` of shape `(batch_size,)`, *optional*):
    Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Returns:

Examples:

```python
>>> from transformers import AutoImageProcessor, TFCvtForImageClassification
>>> import tensorflow as tf
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/cvt-13")
>>> model = TFCvtForImageClassification.from_pretrained("microsoft/cvt-13")

>>> inputs = image_processor(images=image, return_tensors="tf")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_class_idx = tf.math.argmax(logits, axis=-1)[0]
>>> print("Predicted class:", model.config.id2label[int(predicted_class_idx)])
```rz  r   r   rá   r‰   )r   rÕ   r   rÖ   rÞ   N)Úlabelsrâ   rÕ   )Úlossrâ   r   )r„  rW   ræ   r˜  r   r6   r‹   rØ   Úreduce_meanr™  Úhf_compute_lossr   r   )r/   r]   r  rh  ri  r>   r  r}  ræ   rŒ   rN   r   rŽ   Úsequence_output_meanrâ   rž  r  s                    r'   rA   Ú TFCvtForImageClassification.callò  s  € ðR —(‘(ØØ!5Ø#Øð	 ð 
ˆð " !™*ˆØ˜A‘Jˆ	Ø;‰;× Ñ  ×$Ø"Ÿn™n¨YÓ7‰Oô 7AÀÓ6QÑ3ˆJ fÜ Ÿjšj¨È\ÐdiÑ[iÐ@jÑkˆOÜ Ÿlšl¨?ÀÑKˆOØ"Ÿn™n¨_Ó=ˆOä!Ÿ~š~¨oÀAÑFÐØ—‘Ð!5Ó6ˆØ‘~‰t¨4×+?Ñ+?ÀvÐ+?Ð+]ˆæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä5¸4Ð^e×^sÑ^sÑtÐtr&   c                óh  • U R                   (       a  g SU l         [        U SS 5      bN  [        R                  " U R                  R
                  5         U R                  R                  S 5        S S S 5        [        U SS 5      bh  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  R                  S   /5        S S S 5        [        U SS 5      b…  [        U R                  S5      (       ai  [        R                  " U R                  R
                  5         U R                  R                  S S U R                  R                  S   /5        S S S 5        g g g ! , (       d  f       GN= f! , (       d  f       N´= f! , (       d  f       g = f)NTr„  r˜  rá   r™  rR   )ra   rb   r6   rc   r„  rR   rd   r˜  rW   rO   Úhasattrr™  re   s     r'   rd   Ú!TFCvtForImageClassification.build7  s(  € Ø::ØØˆŒ
Ü4˜ Ó%Ñ1Ü—’˜tŸx™xŸ}™}Õ-Ø—‘—‘˜tÔ$÷ .ä4˜ dÓ+Ñ7Ü—’˜tŸ~™~×2Ñ2Õ3Ø—‘×$Ñ$ d¨D°$·+±+×2GÑ2GÈÑ2KÐ%LÔM÷ 4ä4˜ tÓ,Ñ8Üt—‘¨×/Ñ/Ü—]’] 4§?¡?×#7Ñ#7Õ8Ø—O‘O×)Ñ)¨4°°t·{±{×7LÑ7LÈRÑ7PÐ*QÔR÷ 9Ð8ð 0ð 9÷ .Ö-ú÷ 4Õ3ú÷ 9Õ8ús$   ÁF Â.6FÄ?6F#Æ 
FÆ
F Æ#
F1)ra   r™  rW   r„  r˜  rš  ro  )NNNNF)r]   r   r  r   rh  rp  ri  rp  r>   rp  rm   z9TFImageClassifierOutputWithNoAttention | tuple[tf.Tensor]rD   )r   r    r!   r"   r-   r   r   r“  r   r   r”  rA   rd   r%   rF   rG   s   @r'   r–  r–  Ø  s¦   ø† ÷ð$ Ù*Ð+AÓBÙÐ+QÐ`oÑpð *.Ø#'Ø,0Ø#'Ø %ð@uà&ð@uð !ð@uð *ð	@uð
 !ð@uð ð@uð 
Cô@uó qó Có ð@u÷DSò Sr&   r–  )r–  rˆ  rƒ  ):r#   Ú
__future__r   Úcollections.abcr   Údataclassesr   Ú
tensorflowr6   Úmodeling_tf_outputsr   Úmodeling_tf_utilsr   r   r	   r
   r   r   r   Útf_utilsr   r   Úutilsr   r   r   r   r   Úconfiguration_cvtr   Ú
get_loggerr   Úloggerr”  r   rT   ÚLayerr)   rI   rS   r”   r¤   rª   r¹   ró   r  r  r"  r+  r:  rW  rt  rƒ  ÚTFCVT_START_DOCSTRINGr“  rˆ  r–  Ú__all__r   r&   r'   Ú<module>r´     se  ðñ å "ã Ý !ã å I÷÷ ñ ÷ 3÷õ õ )ð 
×	Ò	˜HÓ	%€ð €ð ô7 Kó 7ó ð7ô(/E—L‘L×&Ñ&ô /ô(%8e—l‘l×(Ñ(ô %8ôP7G˜%Ÿ,™,×,Ñ,ô 7Gôt"M u§|¡|×'9Ñ'9ô "MôJ¨¯©×);Ñ);ô ô8 5§<¡<×#5Ñ#5ô 8ôDMJ˜Ÿ™×+Ñ+ô MJô`?e—l‘l×(Ñ(ô ?ô27.U—\‘\×'Ñ'ô 7.ôt?˜Ÿ™×*Ñ*ô ?ô4U%—,‘,×$Ñ$ô Uô:^I—‘×#Ñ#ô ^IôB]&—‘×#Ñ#ô ]&ô@:&5—<‘<×%Ñ%ô :&ðz ô-)U—\‘\×'Ñ'ó -)ó ð-)ô`%Ð,ô %ðÐ ð8Ð ñ& ØcØóô>%Ð%ó >%ó	ð>%ñB ðð óôeSÐ"6Ð8Tó eSóðeSòP Pr&   