php函数substr、mb_substr、mb_strcut截取中文比较

一、函数说明
    substr、mb_substr、mb_strcut这三个函数都用来截取字符串,所不同的是:substr是最简单的截取,无法适应中文;mb_substr是按字来切分字符串,而mb_strcut是按字节来切分字符串,截取中文都不会产生半个字符的现象。
    这三个函数的前三个参数完全一致,即:
第一个参数是操作对象
第二个参数是截取的起始位置
第三个参数是截取的数量
    mb_substr和mb_strcut还有第四个参数:第四个参数可以根据不同的字符集进行设置

  1. <?php  

  2.   

  3. //对待一个UTF8的中文字符是3个长度    

  4. //对待一个gbk的中文字符是2个长度    

  5. header("content-Type:text/html;charset=utf-8");    

  6.     

  7. //设置内部编码    

  8. mb_internal_encoding(‘UTF-8‘);    

  9.     

  10. //测试     

  11. $cn_str="钓鱼岛是中国的hehe";    

  12. $en_str="this is just a test";    

  13.     

  14.     

  15. //使用substr    

  16. echo substr($cn_str,0,3).‘<br/>‘//钓    

  17. echo substr($en_str,0,3).‘<br/><br/>‘;   //thi    

  18.     

  19.     

  20. //使用mbsubstr()    

  21. echo "mb_substr-3:".mb_substr($cn_str,0,3).‘<br/>‘;   //钓鱼岛    按照字来划分     

  22. echo "substr-3:".substr($cn_str,0,3).‘<br/>‘;//钓   按照字节来划分      

  23. echo "mb_strcut-3:".mb_strcut($cn_str,0,3).‘<br/><br/>‘//钓   按照字节来划分    

  24.   

  25.   

  26. echo "mb_substr-4:".mb_substr($cn_str,0,4).‘<br/>‘;   //钓鱼岛    按照字来划分  

  27. echo "substr-4:".substr($cn_str,0,4).‘<br/>‘//钓   按照字节来划分(出现乱码)      

  28. echo "mb_strcut-4:".mb_strcut($cn_str,0,4).‘<br/><br/>‘//钓   按照字节来划分(不会出现乱码)    

  29.   

  30.   

  31.   

  32.   

  33. echo strlen($cn_str).‘<br/>‘;   //26    

  34. echo mb_strlen($cn_str).‘<br/>‘;  //12    

  35. echo iconv_strlen($cn_str).‘<br/>‘;//26    

  36.   

  37. ?>  


三、结论
        substr、mb_strcut表现都不够理想,mb_substr可以正常使用,但前提是要安装php扩展库,否则就要自己写一个适应各种情况的截取函数了。


郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。