ó
    +ýòhj  ã                   óÊ  • S SK JrJrJr  S SKrS SKrS SKJr  S SKJr  S SK	J
r  S SKJrJrJr  S SKJrJr  S SKJrJrJrJrJr  S S	KJr  S S
KJrJr  \R<                  " \5      r  " S S\RB                  5      r" " S S\RB                  5      r# " S S\RB                  5      r$ " S S\RB                  5      r% " S S\RB                  5      r& " S S\5      r' " S S\5      r(g)é    )ÚOptionalÚTupleÚUnionN)Únn)ÚBertTokenizer)ÚQuickGELUActivation)Ú)BaseModelOutputWithPastAndCrossAttentionsÚBaseModelOutputWithPoolingÚ,BaseModelOutputWithPoolingAndCrossAttentions)ÚBlip2ConfigÚBlip2VisionConfig)ÚBlip2EncoderÚBlip2PreTrainedModelÚBlip2QFormerAttentionÚBlip2QFormerIntermediateÚBlip2QFormerOutput)Úapply_chunking_to_forward)ÚloggingÚreplace_return_docstringsc                   ó>   ^ • \ rS rSrSrU 4S jr    SS jrSrU =r$ )ÚBlip2TextEmbeddingsé/   z;Construct the embeddings from word and position embeddings.c                 óH  >• [         TU ]  5         [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " UR                  UR
                  5      U l	        [        R                  " UR
                  UR                  S9U l
        [        R                  " UR                  5      U l        U R                  S[         R"                  " UR                  5      R%                  S5      5        ['        USS5      U l        Xl        g )N)Úpadding_idx©ÚepsÚposition_ids)é   éÿÿÿÿÚposition_embedding_typeÚabsolute)ÚsuperÚ__init__r   Ú	EmbeddingÚ
vocab_sizeÚhidden_sizeÚpad_token_idÚword_embeddingsÚmax_position_embeddingsÚposition_embeddingsÚ	LayerNormÚlayer_norm_epsÚDropoutÚhidden_dropout_probÚdropoutÚregister_bufferÚtorchÚarangeÚexpandÚgetattrr    Úconfig©Úselfr5   Ú	__class__s     €Úk/home/james-whalen/.local/lib/python3.13/site-packages/diffusers/pipelines/blip_diffusion/modeling_blip2.pyr#   ÚBlip2TextEmbeddings.__init__2   sÑ   ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#%§<¢<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ ô Ÿš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒð 	×Ñ˜^¬U¯\ª\¸&×:XÑ:XÓ-Y×-`Ñ-`ÐahÓ-iÔjÜ'.¨vÐ7PÐR\Ó']ˆÔ$àó    c                 óð  • Ub  UR                  5       S   nOSnUc%  U R                  S S 2XEU-   24   R                  5       nUbr  U R                  U5      nU R                  S:X  a  U R                  U5      nXg-   nUb8  UR                  S   nUR                  USS5      n[        R                  " X64SS9nOUnUR                  UR                  5      nU R                  U5      nU R                  U5      nU$ )Nr   r   r!   ©Údim)Úsizer   Úcloner(   r    r*   ÚshapeÚrepeatr1   ÚcatÚtoÚdtyper+   r/   )	r7   Ú	input_idsr   Úquery_embedsÚpast_key_values_lengthÚ
seq_lengthÚ
embeddingsr*   Ú
batch_sizes	            r9   ÚforwardÚBlip2TextEmbeddings.forwardB   s  € ð Ñ Ø"Ÿ™Ó)¨!Ñ,‰JàˆJàÑØ×,Ñ,ªQÐ0FÐVlÑIlÐ0lÐ-lÑm×sÑsÓuˆLàÑ Ø×-Ñ-¨iÓ8ˆJØ×+Ñ+¨zÓ9Ø&*×&>Ñ&>¸|Ó&LÐ#Ø'Ñ=
àÑ'Ø'×-Ñ-¨aÑ0
à+×2Ñ2°:¸qÀ!ÓDÜ"ŸYšY¨Ð'AÀqÑI
øà%ˆJØ—]‘] <×#5Ñ#5Ó6ˆ
Ø—^‘^ JÓ/ˆ
Ø—\‘\ *Ó-ˆ
ØÐr;   )r+   r5   r/   r    r*   r(   )NNNr   )	Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r#   rL   Ú__static_attributes__Ú__classcell__©r8   s   @r9   r   r   /   s#   ø† ÙEõð$ ØØØ ÷ò r;   r   c                   ój   ^ • \ rS rSrS\4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )ÚBlip2VisionEmbeddingsée   r5   c                 ót  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        UR                  U l        [        R                  " [        R                  " SSU R                  5      5      U l        [        R                  " SU R                  U R                  U R                  SS9U l        U R
                  U R                  -  S-  U l        U R                  S-   U l        [        R                  " [        R                  " SU R                  U R                  5      5      U l        g )Nr   é   F)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasé   )r"   r#   r5   r&   Ú	embed_dimÚ
image_sizeÚ
patch_sizer   Ú	Parameterr1   ÚrandnÚclass_embeddingÚConv2dÚpatch_embeddingÚnum_patchesÚnum_positionsÚposition_embeddingr6   s     €r9   r#   ÚBlip2VisionEmbeddings.__init__f   sâ   ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒä!Ÿ|š|¬E¯KªK¸¸1¸d¿n¹nÓ,MÓNˆÔä!ŸyšyØ¨¯©ÀDÇOÁOÐ\`×\kÑ\kÐrwñ 
ˆÔð !ŸO™O¨t¯©Ñ>À1ÑDˆÔØ!×-Ñ-°Ñ1ˆÔä"$§,¢,¬u¯{ª{¸1¸d×>PÑ>PÐRV×R`ÑR`Ó/aÓ"bˆÕr;   Úpixel_valuesÚreturnc                 óÖ  • UR                   S   nU R                  R                  R                  nU R                  UR	                  US95      nUR                  S5      R                  SS5      nU R                  R                  USS5      R	                  U5      n[        R                  " XT/SS9nX`R                  S S 2S UR                  S5      2S S 24   R	                  U5      -   nU$ )Nr   ©rE   r`   r   r   r=   )rA   rh   ÚweightrE   rD   ÚflattenÚ	transposerf   r3   r1   rC   rk   r?   )r7   rm   rK   Útarget_dtypeÚpatch_embedsÚclass_embedsrJ   s          r9   rL   ÚBlip2VisionEmbeddings.forwardx   sÕ   € Ø!×'Ñ'¨Ñ*ˆ
Ø×+Ñ+×2Ñ2×8Ñ8ˆØ×+Ñ+¨L¯O©OÀ,¨OÐ,OÓPˆØ#×+Ñ+¨AÓ.×8Ñ8¸¸AÓ>ˆà×+Ñ+×2Ñ2°:¸qÀ"ÓE×HÑHÈÓVˆÜ—Y’Y Ð;ÀÑCˆ
Ø×"9Ñ"9º!Ð=Q¸z¿¹ÈqÓ?QÐ=QÒSTÐ:TÑ"U×"XÑ"XÐYeÓ"fÑfˆ
ØÐr;   )	rf   r5   ra   rb   ri   rj   rh   rc   rk   )rN   rO   rP   rQ   r   r#   r1   ÚTensorrL   rS   rT   rU   s   @r9   rW   rW   e   s2   ø† ðcÐ0÷ cð$	 E§L¡Lð 	°U·\±\÷ 	ò 	r;   rW   c                   óF   ^ • \ rS rSrU 4S jr          SS jrSrU =r$ )ÚBlip2QFormerEncoderé…   c           	      óÖ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ s H  n[        X5      PM     sn5      U l        SU l	        g s  snf )NF)
r"   r#   r5   r   Ú
ModuleListÚrangeÚnum_hidden_layersÚBlip2QFormerLayerÚlayerÚgradient_checkpointing©r7   r5   Ú	layer_idxr8   s      €r9   r#   ÚBlip2QFormerEncoder.__init__†   sX   ø€ Ü‰ÑÔØŒÜ—]’]ÜCHÈ×IaÑIaÔCbÓcÒCb°iÔ˜vÖ1ÑCbÑcó
ˆŒ
ð ',ˆÕ#ùò ds   ½A&c                 óò  • U	(       a  SOS nU(       a  SOS nU(       a  SOS nU(       a  SOS n[        U R                  R                  5       Hò  nU R                  U   nU	(       a  XÁ4-   nUb  UU   OS nUb  UU   OS n[	        U R                  SS5      (       aR  [
        R                  " 5       (       a8  U(       a  [        R                  S5        SnU R                  UUUUUUUUU5	      nOU" UUUUUUUU5      nUS   nU(       a	  UUS   4-  nU(       d  MÍ  UUS   4-   nUR                  (       d  Mé  UUS   4-   nMô     U	(       a  XÁ4-   nU
(       d  [        S	 UUUUU4 5       5      $ [        UUUUUS
9$ )N© r‚   FzZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...r   r   r   r`   c              3   ó0   #   • U  H  nUc  M  Uv •  M     g 7f©Nr‡   )Ú.0Úvs     r9   Ú	<genexpr>Ú.Blip2QFormerEncoder.forward.<locals>.<genexpr>Ô   s"   é € ð 
òAð ÷ ‘òùs   ‚	)Úlast_hidden_stateÚpast_key_valuesÚhidden_statesÚ
attentionsÚcross_attentions)r~   r5   r   r   r4   r1   Úis_grad_enabledÚloggerÚwarningÚ_gradient_checkpointing_funcÚhas_cross_attentionÚtupler	   )r7   r   Úattention_maskÚ	head_maskÚencoder_hidden_statesÚencoder_attention_maskr   Ú	use_cacheÚoutput_attentionsÚoutput_hidden_statesÚreturn_dictÚquery_lengthÚall_hidden_statesÚall_self_attentionsÚall_cross_attentionsÚnext_decoder_cacheÚiÚlayer_moduleÚlayer_head_maskÚpast_key_valueÚlayer_outputss                        r9   rL   ÚBlip2QFormerEncoder.forwardŽ   sÉ  € ö #7™B¸DÐÞ$5™b¸4ÐÞ%6™r¸DÐæ#,™R°$Ðät—{‘{×4Ñ4Ö5ˆAØŸ:™: a™=ˆLÞ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜i¨šlÈˆOØ3BÑ3N˜_¨QÒ/ÐTXˆNät—{‘{Ð$<¸e×DÑDÌ×I^ÒI^×I`ÑI`ÞÜ—N‘NØtôð !&Ià $× AÑ AØ Ø!Ø"Ø#Ø)Ø*Ø"Ø%Ø ó
!‘ñ !-Ø!Ø"Ø#Ø)Ø*Ø"Ø%Ø ó	!ð *¨!Ñ,ˆMÞØ" }°RÑ'8Ð&:Ñ:Ð"ß Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÐ#Ø×3×3Ñ3Ø+?À=ÐQRÑCSÐBUÑ+UÒ(ñY 6ö\  Ø 1Ð4DÑ DÐæÜñ 
ð "Ø&Ø%Ø'Ø(ñó
ó 
ð 
ô 9Ø+Ø.Ø+Ø*Ø1ñ
ð 	
r;   )r5   r‚   r   )
NNNNNNFFTr   ©rN   rO   rP   rQ   r#   rL   rS   rT   rU   s   @r9   rz   rz   …   s4   ø† õ,ð ØØ"Ø#ØØØØ"ØØ÷W
ò W
r;   rz   c                   óL   ^ • \ rS rSrU 4S jr       SS jrS rS rSrU =r	$ )r€   éé   c                 ó^  >• [         TU ]  5         UR                  U l        SU l        [	        U5      U l        X l        X!R                  -  S:X  a  [	        USS9U l        SU l	        OSU l	        [        U5      U l        [        U5      U l        [        U5      U l        [        U5      U l        g )Nr   r   T)Úis_cross_attentionF)r"   r#   Úchunk_size_feed_forwardÚseq_len_dimr   Ú	attentionr„   Úcross_attention_frequencyÚcrossattentionr—   r   ÚintermediateÚintermediate_queryr   Úoutput_queryÚoutputrƒ   s      €r9   r#   ÚBlip2QFormerLayer.__init__ê   s™   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ.¨vÓ6ˆŒà"Œà×7Ñ7Ñ7¸1Ó<Ü"7¸ÐSWÑ"XˆDÔØ'+ˆDÕ$à',ˆDÔ$ä4°VÓ<ˆÔÜ":¸6Ó"BˆÔÜ.¨vÓ6ˆÔÜ(¨Ó0ˆr;   c	           
      ó  • Ub  US S OS n	U R                  UUUUU	S9n
U
S   nU
SS nU
S   nUS:”  aÜ  US S 2S U2S S 24   nU R                  (       a.  Uc  [        S5      eU R                  UUUUUUS9nUS   nXÏSS -   n[	        U R
                  U R                  U R                  U5      nUR                  S   U:”  aO  [	        U R                  U R                  U R                  US S 2US 2S S 24   5      n[        R                  " UU/SS9nO,[	        U R                  U R                  U R                  U5      nU4U-   nXÍ4-   nU$ )	Nr`   )rž   r©   r   r   r   z>encoder_hidden_states must be given for cross-attention layers)rž   r=   )r³   r—   Ú
ValueErrorrµ   r   Úfeed_forward_chunk_queryr±   r²   rA   Úfeed_forward_chunkr1   rC   )r7   r   r™   rš   r›   rœ   r©   rž   r¡   Úself_attn_past_key_valueÚself_attention_outputsÚattention_outputÚoutputsÚpresent_key_valueÚquery_attention_outputÚcross_attention_outputsÚlayer_outputÚlayer_output_texts                     r9   rL   ÚBlip2QFormerLayer.forwardý   s³  € ð :HÑ9S >°"°1Ñ#5ÐY]Ð Ø!%§¡ØØØØ/Ø3ð "0ð "
Ðð 2°!Ñ4ÐØ(¨¨2Ð.ˆà2°2Ñ6Ðà˜!ÓØ%5²a¸¸,¸ÊÐ6IÑ%JÐ"à×'×'Ø(Ñ0Ü$Ð%eÓfÐfØ*.×*=Ñ*=Ø*Ø"ØØ)Ø*Ø&7ð +>ð +Ð'ð *AÀÑ)CÐ&à!¸A¸bÐ$AÑAä4Ø×-Ñ-Ø×,Ñ,Ø× Ñ Ø&ó	ˆLð  ×%Ñ% aÑ(¨<Ó7Ü$=Ø×+Ñ+Ø×0Ñ0Ø×$Ñ$Ø$¢Q¨©²qÐ%8Ñ9ó	%Ð!ô  %Ÿyšy¨,Ð8IÐ)JÐPQÑRøä4Ø×'Ñ'Ø×,Ñ,Ø× Ñ Ø ó	ˆLð  / GÑ+ˆàÐ0Ñ0ˆàˆr;   c                 óJ   • U R                  U5      nU R                  X!5      nU$ r‰   )r¶   r¹   ©r7   rÁ   Úintermediate_outputrÆ   s       r9   r¾   Ú$Blip2QFormerLayer.feed_forward_chunkD  s)   € Ø"×/Ñ/Ð0@ÓAÐØ—{‘{Ð#6ÓIˆØÐr;   c                 óJ   • U R                  U5      nU R                  X!5      nU$ r‰   )r·   r¸   rÊ   s       r9   r½   Ú*Blip2QFormerLayer.feed_forward_chunk_queryI  s+   € Ø"×5Ñ5Ð6FÓGÐØ×(Ñ(Ð)<ÓOˆØÐr;   )
r³   r±   rµ   r—   r¶   r·   r„   r¹   r¸   r²   )NNNNNFr   )
rN   rO   rP   rQ   r#   rL   r¾   r½   rS   rT   rU   s   @r9   r€   r€   é   s5   ø† õ1ð, ØØ"Ø#ØØØôEòN÷
ð r;   r€   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )Ú	ProjLayeriP  c                 ó  >• [         TU ]  5         [        R                  " X5      U l        [        5       U l        [        R                  " X25      U l        [        R                  " U5      U l	        [        R                  " X%S9U l
        g ©Nr   )r"   r#   r   ÚLinearÚdense1Ú	QuickGELUÚact_fnÚdense2r-   r/   r+   )r7   Úin_dimÚout_dimÚ
hidden_dimÚdrop_pr   r8   s         €r9   r#   ÚProjLayer.__init__Q  sY   ø€ Ü‰ÑÔô —i’i Ó3ˆŒÜ“kˆŒÜ—i’i 
Ó4ˆŒÜ—z’z &Ó)ˆŒäŸš gÑ7ˆr;   c           	      ó®   • UnU R                  U5      nU R                  U R                  U R                  U R	                  U5      5      5      5      U-   nU$ r‰   )r+   r/   r×   rÖ   rÔ   )r7   ÚxÚx_ins      r9   rL   ÚProjLayer.forward\  sG   € ØˆàN‰N˜1ÓˆØL‰L˜Ÿ™ T§[¡[°·±¸Q³Ó%@ÓAÓBÀTÑIˆàˆr;   )r+   rÖ   rÔ   r×   r/   )çš™™™™™¹?çê-™—q=r¬   rU   s   @r9   rÐ   rÐ   P  s   ø† ÷	8÷ð r;   rÐ   c                   ó²   ^ • \ rS rSrSr\rS\4U 4S jjr\" \	\S9    SS\
\R                     S\
\   S\
\   S\
\   S	\\\	4   4
S
 jj5       rS rSrU =r$ )ÚBlip2VisionModelif  rm   r5   c                 ó4  >• [         TU ]  U5        Xl        UR                  n[	        U5      U l        [        R                  " X!R                  S9U l	        [        U5      U l        [        R                  " X!R                  S9U l        U R                  5         g rÒ   )r"   r#   r5   r&   rW   rJ   r   r+   r,   Úpre_layernormr   ÚencoderÚpost_layernormÚ	post_init)r7   r5   ra   r8   s      €r9   r#   ÚBlip2VisionModel.__init__j  sp   ø€ Ü‰Ñ˜Ô ØŒØ×&Ñ&ˆ	Ü/°Ó7ˆŒÜŸ\š\¨)×9NÑ9NÑOˆÔÜ# FÓ+ˆŒÜ Ÿlšl¨9×:OÑ:OÑPˆÔà‰Õr;   )Úoutput_typeÚconfig_classrž   rŸ   r    rn   c                 óî  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  U5      nU R                  U5      nU R                  UUUUS9nUS   nU R                  U5      nUSS2SSS24   nU R                  U5      nU(       d	  Xx4USS -   $ [        UUUR                  UR                  S9$ )z
Returns:

Nz You have to specify pixel_values)Úinputs_embedsrž   rŸ   r    r   r   )rŽ   Úpooler_outputr   r‘   )r5   rž   rŸ   Úuse_return_dictr¼   rJ   ræ   rç   rè   r
   r   r‘   )	r7   rm   rž   rŸ   r    r   Úencoder_outputsrŽ   Úpooled_outputs	            r9   rL   ÚBlip2VisionModel.forwardu  s  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@àŸ™¨Ó5ˆØ×*Ñ*¨=Ó9ˆØŸ,™,Ø'Ø/Ø!5Ø#ð	 'ð 
ˆð ,¨AÑ.ÐØ ×/Ñ/Ð0AÓBÐà)ª!¨Q²¨'Ñ2ˆØ×+Ñ+¨MÓ:ˆæØ%Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r;   c                 ó   • U R                   $ r‰   )rJ   ©r7   s    r9   Úget_input_embeddingsÚ%Blip2VisionModel.get_input_embeddings¢  s   € Ø‰Ðr;   )r5   rJ   rç   rè   ræ   )NNNN)rN   rO   rP   rQ   Úmain_input_namer   rì   r#   r   r
   r   r1   rx   Úboolr   r   rL   rö   rS   rT   rU   s   @r9   rä   rä   f  s¡   ø† Ø$€OØ$€Lð	Ð0÷ 	ñ Ð+EÐTeÑfð 04Ø,0Ø/3Ø&*ñ*
à˜uŸ|™|Ñ,ð*
ð $ D™>ð*
ð ' t™nð	*
ð
 ˜d‘^ð*
ð 
ˆuÐ0Ð0Ñ	1ô*
ó gð*
÷Xð r;   rä   c                   óÊ   ^ • \ rS rSrSrS\4U 4S jjrS rS rS r	 SS\
R                  S	\\   S
\
R                  S\S\
R                  4
S jjr          SS jrSrU =r$ )ÚBlip2QFormerModeli§  z2
Querying Transformer (Q-Former), used in BLIP-2.
r5   c                 ó   >• [         TU ]  U5        Xl        [        UR                  5      U l        [        UR                  5      U l        [        R                  " [        R                  " SUR                  UR                  R                  5      5      U l        [!        US5      (       a  UR"                  c  [$        R&                  " SSS9U l        O$[$        R&                  " UR"                  SS9U l        U R"                  R)                  SS05        [+        UR                  R                  UR                  R                  UR                  R                  S-  S	S
S9U l        [/        UR                  5      U l        U R3                  5         g )Nr   Ú	tokenizerzbert-base-uncasedÚright)Útruncation_sideÚ	bos_tokenz[DEC]é   rá   râ   )rØ   rÙ   rÚ   rÛ   r   )r"   r#   r5   r   Úqformer_configrJ   rä   Úvision_configÚvisual_encoderr   rd   r1   ÚzerosÚnum_query_tokensr&   Úquery_tokensÚhasattrrý   r   Úfrom_pretrainedÚadd_special_tokensrÐ   Ú
proj_layerrz   rç   ré   r6   s     €r9   r#   ÚBlip2QFormerModel.__init__¬  s-  ø€ Ü‰Ñ˜Ô ØŒÜ-¨f×.CÑ.CÓDˆŒÜ.¨v×/CÑ/CÓDˆÔÜŸLšL¬¯ª°Q¸×8OÑ8OÐQW×QfÑQf×QrÑQrÓ)sÓtˆÔÜv˜{×+Ñ+¨v×/?Ñ/?Ñ/GÜ*×:Ò:Ð;NÐ`gÑhˆDNä*×:Ò:¸6×;KÑ;KÐ]dÑeˆDŒNØ‰×)Ñ)¨;¸Ð*@ÔAÜ#Ø×(Ñ(×4Ñ4Ø×)Ñ)×5Ñ5Ø×,Ñ,×8Ñ8¸1Ñ<ØØñ
ˆŒô +¨6×+@Ñ+@ÓAˆŒà‰Õr;   c                 ó.   • U R                   R                  $ r‰   ©rJ   r(   rõ   s    r9   rö   Ú&Blip2QFormerModel.get_input_embeddingsÃ  s   € Ø‰×.Ñ.Ð.r;   c                 ó$   • XR                   l        g r‰   r  )r7   Úvalues     r9   Úset_input_embeddingsÚ&Blip2QFormerModel.set_input_embeddingsÆ  s   € Ø*/‰Õ'r;   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)Úitemsrç   r   r³   Úprune_heads)r7   Úheads_to_pruner   Úheadss       r9   Ú_prune_headsÚBlip2QFormerModel._prune_headsÉ  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r;   r™   Úinput_shapeÚdeviceÚ	has_queryrn   c                 ó  • UR                  5       S:X  a  USS2SSS2SS24   nOFUR                  5       S:X  a  USS2SSSS24   nO$[        SR                  X!R                  5      5      eUR	                  U R
                  S9nSU-
  S-  nU$ )aå  
Makes broadcastable attention and causal masks so that future and masked tokens are ignored.

Arguments:
    attention_mask (`torch.Tensor`):
        Mask with ones indicating tokens to attend to, zeros for tokens to ignore.
    input_shape (`Tuple[int]`):
        The shape of the input to the model.
    device (`torch.device`):
        The device of the input to the model.

Returns:
    `torch.Tensor` The extended attention mask, with a the same dtype as `attention_mask.dtype`.
rZ   Nr`   zAWrong shape for input_ids (shape {}) or attention_mask (shape {})rp   g      ð?g     ˆÃÀ)r>   r¼   ÚformatrA   rD   rE   )r7   r™   r  r  r  Úextended_attention_masks         r9   Úget_extended_attention_maskÚ-Blip2QFormerModel.get_extended_attention_maskÑ  s¤   € ð. ×ÑÓ 1Ó$Ø&4²Q¸ºaÂ°]Ñ&CÑ#Ø×ÑÓ! QÓ&ð '5²Q¸¸dÂAÐ5EÑ&FÑ#äØS×ZÑZØ×!5Ñ!5óóð ð #:×"<Ñ"<À4Ç:Á:Ð"<Ð"NÐØ#&Ð)@Ñ#@ÀHÑ"LÐØ&Ð&r;   c                 ó¸  • U R                  USSS9nUR                  U R                  5      nUR                  nUR                  S   n[
        R                  " XÐR                  R                  5       S   4[
        R                  S9R                  U R                  5      n[
        R                  " XëR                  /SS9nUb  UOU R                  R                  nU	b  U	OU R                  R                  n	U
b  U
OU R                  R                  n
Ub,  US   S   R                  S	   U R                  R                   -
  OSnU R                  R                  S   nU R#                  UU R                  US
9nUR                  5       SS nUu  nnUR                  nU R%                  U5      R&                  nUnUc  [
        R                  " UUU-   4US9nU R)                  UUU5      nUb¸  [+        U[,        5      (       a  US   R                  5       u  nnnOUR                  5       u  nnnUU4n[+        U[,        5      (       a"  U Vs/ s H  nU R/                  U5      PM     nnO>Uc'  [
        R                  " UUS9nU R/                  U5      nOU R/                  U5      nOSnU R1                  X0R                  R2                  R4                  5      nU R7                  UUUUUUUUU	U
US9nUS   nUSS2SSS24   n U
(       d  U R9                  USS2SU2SS24   5      $ [;        UU UR<                  UR>                  UR@                  URB                  S9$ s  snf )ay  
encoder_hidden_states  (`torch.Tensor` of shape `(batch_size, sequence_length, hidden_size)`, `optional`):
    Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention if
    the model is configured as a decoder.
encoder_attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, `optional`):
    Mask to avoid performing attention on the padding token indices of the encoder input. This mask is used in
    the cross-attention if the model is configured as a decoder. Mask values selected in `[0, 1]`:
    - 1 for tokens that are **not masked**,
    - 0 for tokens that are **masked**.
past_key_values (`tuple(tuple(torch.Tensor))` of length `config.n_layers` with each tuple having 4 tensors of:
    shape `(batch_size, num_heads, sequence_length - 1, embed_size_per_head)`): Contains precomputed key and
    value hidden states of the attention blocks. Can be used to speed up decoding. If `past_key_values` are
    used, the user can optionally input only the last `decoder_input_ids` (those that don't have their past key
    value states given to this model) of shape `(batch_size, 1)` instead of all `decoder_input_ids` of shape
    `(batch_size, sequence_length)`.
use_cache (`bool`, `optional`):
    If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding (see
    `past_key_values`).
ÚptT)Úreturn_tensorsÚpaddingr   r   rp   r=   Nr`   )rF   rG   rH   r   )r  )
r™   rš   r›   rœ   r   r   rž   rŸ   r    r¡   )rŽ   rï   r   r   r‘   r’   )"rý   rD   r  rF   rA   r1   Úonesr  r?   ÚlongrC   r™   r5   rž   rŸ   rð   r¡   rJ   r  rŽ   r!  Ú
isinstanceÚlistÚinvert_attention_maskÚget_head_maskr  r   rç   r  r   r   r   r‘   r’   )!r7   Ú
text_inputÚimage_inputrš   r›   rœ   r   r   rž   rŸ   r    ÚtextrF   rK   Ú
query_attsr™   rH   r¡   Úembedding_outputr  rI   r  Úimage_embeds_frozenr   Úencoder_batch_sizeÚencoder_sequence_lengthÚ_Úencoder_hidden_shapeÚmaskÚencoder_extended_attention_maskrñ   Úsequence_outputrò   s!                                    r9   rL   ÚBlip2QFormerModel.forwardþ  s~  € ðB ~‰~˜j¸Àtˆ~ÐLˆØw‰wt—{‘{Ó#ˆØ—N‘Nˆ	Ø—_‘_ QÑ'ˆ
Ü—Z’Z ×->Ñ->×-CÑ-CÓ-EÀaÑ-HÐ IÔQV×Q[ÑQ[Ñ\×_Ñ_Ð`d×`kÑ`kÓlˆ
ÜŸš J×0CÑ0CÐ#DÈ!ÑLˆà1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð JYÑIdˆO˜AÑ˜qÑ!×'Ñ'¨Ñ*¨T¯[©[×-EÑ-EÒEÐjkð 	ð ×(Ñ(×.Ñ.¨qÑ1ˆàŸ?™?ØØ×*Ñ*Ø#9ð +ð 
Ðð '×+Ñ+Ó-¨c¨rÐ2ˆØ!,Ñˆ
JØ!×(Ñ(ˆà"×1Ñ1°+Ó>×PÑPÐà 3ÐàÑ!Ü"ŸZšZ¨*°jÐCYÑ6YÐ)ZÐdjÑkˆNð #'×"BÑ"BÀ>ÐS^Ð`fÓ"gÐð !Ñ,ÜÐ/´×6Ñ6ØAVÐWXÑAY×A^ÑA^ÓA`Ñ>Ð"Ð$;¹QàAV×A[ÑA[ÓA]Ñ>Ð"Ð$;¸QØ$6Ð8OÐ#PÐ äÐ0´$×7Ñ7Ù`vÓ2wÒ`vÐX\°4×3MÑ3MÈdÖ3SÑ`vÐ/Ð2wÐ/Ø'Ñ/Ü).¯ªÐ4HÐQWÑ)XÐ&Ø26×2LÑ2LÐMcÓ2dÑ/à26×2LÑ2LÐMcÓ2dÑ/à.2Ð+ð ×&Ñ& y·+±+×2LÑ2L×2^Ñ2^Ó_ˆ	àŸ,™,ØØ2ØØ"7Ø#BØ+ØØ/Ø!5Ø#Ø%ð 'ð 
ˆð *¨!Ñ,ˆØ'ª¨1ªa¨Ñ0ˆæØ—?‘? ?²1°m°|°mÂQÐ3FÑ#GÓHÐHä;Ø-Ø'Ø+×;Ñ;Ø)×7Ñ7Ø&×1Ñ1Ø,×=Ñ=ñ
ð 	
ùòG 3xs   ÉM)r5   rJ   rç   r  r  rý   r  )F)
NNNNNNNNNN)rN   rO   rP   rQ   rR   r   r#   rö   r  r  r1   rx   r   Úintr  rù   r!  rL   rS   rT   rU   s   @r9   rû   rû   §  s›   ø† ñð˜{÷ ò./ò0òCð  ñ+'àŸ™ð+'ð ˜3‘Zð+'ð —‘ð	+'ð
 ð+'ð 
‰õ+'ð^ ØØØ"Ø#ØØØØ!Ø÷A
ò A
r;   rû   ))Útypingr   r   r   r1   Útorch.utils.checkpointr   Útransformersr   Útransformers.activationsr   rÕ   Útransformers.modeling_outputsr	   r
   r   Ú/transformers.models.blip_2.configuration_blip_2r   r   Ú*transformers.models.blip_2.modeling_blip_2r   r   r   r   r   Útransformers.pytorch_utilsr   Útransformers.utilsr   r   Ú
get_loggerrN   r”   ÚModuler   rW   rz   r€   rÐ   rä   rû   r‡   r;   r9   Ú<module>rG     sÈ   ð÷ *Ñ )ã Û Ý Ý &Ý E÷ñ ÷
 [÷õ õ A÷ð 
×	Ò	˜HÓ	%€ô2˜"Ÿ)™)ô 2ôl˜BŸI™Iô ô@`
˜"Ÿ)™)ô `
ôHc˜Ÿ	™	ô côN—	‘	ô ô,=Ð+ô =ôBX
Ð,õ X
r;   