
    h                         S SK r S SKJr  SSKJr  S/ SQ4/r\ R                  R                  S\5      S 5       rS	 r	\ R                  R                  S
\5      S 5       r
S rS rg)    N)
Vietnamese   )NAUGHTY_STRINGSt   Đây là một văn  bản bằng tiếng Việt Sau đó, đây là một văn bản khác bằng ngôn ngữ này)u   Đây   là   mộtu   văn  bản   bằngu   tiếngu   ViệtSauu   đó,u   đâyr   r   u
   văn bảnu   khácr	   u   ngôn ngữu   nàyztext,expected_tokensc                 ^    U " U5       Vs/ s H  o3R                   PM     nnXB:X  d   eg s  snf N)text)vi_tokenizerr   expected_tokenstokentokenss        \/home/james-whalen/.local/lib/python3.13/site-packages/spacy/tests/lang/vi/test_tokenizer.pytest_vi_tokenizerr      s0    &24&89&8Ujj&8F9$$$ :s   *c                 >    U " S5      nUS   R                   S:X  d   eg )NzI   like cheese.   z  )orth_)r   r   s     r   test_vi_tokenizer_extra_spacesr      s#    ,-F!9??d"""    r   c                 8    U " U5      nUR                   U:X  d   eg r   )text_with_ws)r   r   r   s      r   !test_vi_tokenizer_naughty_stringsr      s     $F$&&&r   c                     U " S5      n[        U5      S:X  d   eU " S5      n[        U5      S:X  d   eU " S5      n[        U5      S:X  d   eg )N r    r   z



 		 


)len)r   docs     r    test_vi_tokenizer_emptyish_textsr"       sQ    
r
Cs8q==
s
Cs8q==
+
,Cs8q==r   c                  
   [         R                  " SSSS0005      n SnU " U5      nU Vs/ s H!  o3R                  (       a  M  UR                  PM#     snUR	                  5       :X  d   eUS   R                  S:X  d   egs  snf )	z-Test for whitespace tokenization without pyvinlp	tokenizeruse_pyviFr      r   N)r   from_configis_spacer   split)r$   r   r!   ts       r   test_vi_tokenizer_no_pyvir,   )   sz    

 
 %+
E7J)K!L
MC BD
d)C2CqzzFAFFC2djjlBBBq6;;# 3s   B B )pytestspacy.lang.vir   tokenizer.test_naughty_stringsr   TOKENIZER_TESTSmarkparametrizer   r   r   r"   r,    r   r   <module>r4      s     $ = |  ~j  k /A% B%
# 1' 2'
r   