字符处理包括分类(即属性判断)和转换函数。ASCII字符主要可分类为控制字符、空白字符、可打印字符、数字字符、字母字符(大写和小写)、标点符号等。
	    1、ctype.h: 标准的属性判断函数有isalnum,isalpha,iscntrl,isdigit,isxdigit,isgraph,isprint,ispunct,islower,isupper,isspace, isblank(C99中引入)共12个函数。标准的属性转换函数有tolower和toupper。当然具体的实现中还会提供一些非标准函数作为扩展,如glibc的实现中提供了isctype,isascii,toascii。
	 
				- 			  
- 			#ifndef _CTYPE_H  
- 			#define _CTYPE_H    1  
- 			#include <features.h>   /* 定义了一些表示编译选项的宏 */  
- 			#include <bits/types.h>  
- 			__BEGIN_DECLS  
- 			#ifndef _ISbit  
- 			 
- 			 
- 			  
- 			# include <endian.h>  
- 			# if __BYTE_ORDER == __BIG_ENDIAN  /* 如果是大端字节序 */  
- 			#  define _ISbit(bit)   (1 << (bit))  
- 			# else /* 否则__BYTE_ORDER==__LITTLE_ENDIAN,是小端字节序 */  
- 			#  define _ISbit(bit)   ((bit) < 8 ? ((1 << (bit)) << 8) : ((1 << (bit)) >> 8))  
- 			# endif  
- 			enum  
- 			{  
- 			  _ISupper = _ISbit (0),      
- 			  _ISlower = _ISbit (1),      
- 			  _ISalpha = _ISbit (2),      
- 			  _ISdigit = _ISbit (3),      
- 			  _ISxdigit = _ISbit (4),     
- 			  _ISspace = _ISbit (5),     
- 			  
- 			  _ISprint = _ISbit (6),      
- 			  _ISgraph = _ISbit (7),      
- 			  _ISblank = _ISbit (8),      
- 			  _IScntrl = _ISbit (9),      
- 			  _ISpunct = _ISbit (10),     
- 			  _ISalnum = _ISbit (11)      
- 			};  
- 			#endif /* ! _ISbit  */  
- 			 
- 			 
- 			 
- 			 
- 			 
- 			 
- 			 
- 			 
- 			  
- 			extern __const unsigned short int **__ctype_b_loc (void)  
- 			     __attribute__ ((__const));  
- 			extern __const __int32_t **__ctype_tolower_loc (void)  
- 			     __attribute__ ((__const));  
- 			extern __const __int32_t **__ctype_toupper_loc (void)  
- 			     __attribute__ ((__const));  
- 			#define __isctype(c, type) /  
- 			  ((*__ctype_b_loc ())[(int) (c)] & (unsigned short int) type)  
- 			#define __isascii(c)    (((c) & ~0x7f) == 0) /* 如果C是一个7比特的值,说明是一个ascii字符(0~127)  */  
- 			#define __toascii(c)    ((c) & 0x7f)        /* 屏蔽掉高位  */  
- 			  
- 			#define __exctype(name) extern int name (int) __THROW  
- 			__BEGIN_NAMESPACE_STD  
- 			 
- 			 
- 			 
- 			 
- 			  
- 			__exctype (isalnum);    
- 			__exctype (isalpha);  
- 			__exctype (iscntrl);  
- 			__exctype (isdigit);  
- 			__exctype (islower);  
- 			__exctype (isgraph);  
- 			__exctype (isprint);  
- 			__exctype (ispunct);  
- 			__exctype (isspace);  
- 			__exctype (isupper);  
- 			__exctype (isxdigit);  
- 			  
- 			extern int tolower (int __c) __THROW;  
- 			  
- 			extern int toupper (int __c) __THROW;  
- 			__END_NAMESPACE_STD  
- 			  
- 			  
- 			#ifdef  __USE_ISOC99  
- 			__BEGIN_NAMESPACE_C99  
- 			__exctype (isblank);  
- 			__END_NAMESPACE_C99  
- 			#endif  
- 			#ifdef __USE_GNU  
- 			  
- 			extern int isctype (int __c, int __mask) __THROW;  
- 			#endif  
- 			#if defined __USE_SVID || defined __USE_MISC || defined __USE_XOPEN  
- 			  
- 			extern int isascii (int __c) __THROW;  
- 			  
- 			extern int toascii (int __c) __THROW;  
- 			  
- 			__exctype (_toupper);  
- 			__exctype (_tolower);  
- 			#endif /* Use SVID or use misc.  */  
- 			  
- 			#define __tobody(c, f, a, args) /  
- 			  (__extension__                                  /  
- 			   ({ int __res;                                  /  
- 			      if (sizeof (c) > 1)                              /  
- 			    {                                     /  
- 			      if (__builtin_constant_p (c))                       /  
- 			        {                                     /  
- 			          int __c = (c);                              /  
- 			          __res = __c < -128 || __c > 255 ? __c : (a)[__c];             /  
- 			        }                                     /  
- 			      else                                    /  
- 			        __res = f args;                           /  
- 			    }                                     /  
- 			      else                                    /  
- 			    __res = (a)[(int) (c)];                           /  
- 			      __res; }))  
- 			#if !defined __NO_CTYPE && !defined __cplusplus  
- 			# define isalnum(c) __isctype((c), _ISalnum)  
- 			# define isalpha(c) __isctype((c), _ISalpha)  
- 			# define iscntrl(c) __isctype((c), _IScntrl)  
- 			# define isdigit(c) __isctype((c), _ISdigit)  
- 			# define islower(c) __isctype((c), _ISlower)  
- 			# define isgraph(c) __isctype((c), _ISgraph)  
- 			# define isprint(c) __isctype((c), _ISprint)  
- 			# define ispunct(c) __isctype((c), _ISpunct)  
- 			# define isspace(c) __isctype((c), _ISspace)  
- 			# define isupper(c) __isctype((c), _ISupper)  
- 			# define isxdigit(c)    __isctype((c), _ISxdigit)  
- 			# ifdef __USE_ISOC99  
- 			#  define isblank(c)    __isctype((c), _ISblank)  
- 			# endif  
- 			# ifdef __USE_EXTERN_INLINES  
- 			__extern_inline int  
- 			__NTH (tolower (int __c))  
- 			{  
- 			  return __c >= -128 && __c < 256 ? (*__ctype_tolower_loc ())[__c] : __c;  
- 			}  
- 			__extern_inline int  
- 			__NTH (toupper (int __c))  
- 			{  
- 			  return __c >= -128 && __c < 256 ? (*__ctype_toupper_loc ())[__c] : __c;  
- 			}  
- 			# endif  
- 			# if __GNUC__ >= 2 && defined __OPTIMIZE__ && !defined __cplusplus  
- 			#  define tolower(c)    __tobody (c, tolower, *__ctype_tolower_loc (), (c))  
- 			#  define toupper(c)    __tobody (c, toupper, *__ctype_toupper_loc (), (c))  
- 			# endif /* Optimizing gcc */  
- 			# if defined __USE_SVID || defined __USE_MISC || defined __USE_XOPEN  
- 			#  define isascii(c)    __isascii (c)  
- 			#  define toascii(c)    __toascii (c)  
- 			#  define _tolower(c)   ((int) (*__ctype_tolower_loc ())[(int) (c)])  
- 			#  define _toupper(c)   ((int) (*__ctype_toupper_loc ())[(int) (c)])  
- 			# endif  
- 			#endif /* Not __NO_CTYPE.  */  
- 			 
- 			  
- 			      
- 			  
- 			__END_DECLS  
- 			#endif /* ctype.h  */  
 	 
	 
				- 			  
- 			#define __NO_CTYPE  
- 			#include <ctype.h>  
- 			  
- 			#define func(name, type) /  
- 			  int name (int c) { return __isctype (c, type); }  
- 			func (isalnum, _ISalnum)  
- 			func (isalpha, _ISalpha)  
- 			func (iscntrl, _IScntrl)  
- 			func (isdigit, _ISdigit)  
- 			func (islower, _ISlower)  
- 			func (isgraph, _ISgraph)  
- 			func (isprint, _ISprint)  
- 			func (ispunct, _ISpunct)  
- 			func (isspace, _ISspace)  
- 			func (isupper, _ISupper)  
- 			func (isxdigit, _ISxdigit)  
- 			#define __ctype_tolower /  
- 			  ((int32_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TOLOWER) + 128)  
- 			#define __ctype_toupper /  
- 			  ((int32_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TOUPPER) + 128)  
- 			int  
- 			tolower (int c)  
- 			{  
- 			  return c >= -128 && c < 256 ? __ctype_tolower[c] : c;  
- 			}  
- 			int  
- 			toupper (int c)  
- 			{  
- 			  return c >= -128 && c < 256 ? __ctype_toupper[c] : c;  
- 			}  
 	 
	    解释:
	    (1)字符的所有属性类被封装在一个enum中,每个属性对应一个枚举常量。
	    (2)在作为接口的头文件中,由于各个函数的类型相同,都接受int型字符,返回int型的值,因此原型声明可用宏__exctype(name)来完成,name为函数名,这样可以简化代码。
	    (3)所有的属性判断函数的实现都是用宏__isctype(c, type)和返回数组指针的外部函数__ctype_b_loc()来完成。在实现文件ctype.c中可以看到,所有的判断函数都只有一条语句“return __isctype (c, type);”。这个函数式宏用来判断字符c是否具有属性type(为枚举常量),它直接以字符c为下标,获得__ctype_b_loc()数组相应位置处的元素,并与属性作逻辑与运算,若结果为非0,说明字符具有该属性,若结果为0则说明字符没有该属性。__ctype_b_loc()函数在glibc库的ctype-info.c文件中定义,它直接使用了glibc 2.0中已经实现的内置函数。可见,这里用宏来实现ctype,使之可以扩展,增加任意的属性。当然,我们也可以自己来实现这些属性函数,代码都很简单,只要判断其ASCII编码范围即可。
	    (4)ctype.c中的tolower和toupper函数实现使用了宏__ctype_tolower,这个宏会被映射成一个数组。它直接根据字符c的范围__ctype_tolower[c]或c本身。
	    (5)ctype.h下面的优化实现用于需要优化的环境中(比如用带优化选项的gcc来编译)。它直接把属性判断函数定义为宏,宏体就是__isctype (c, type)。定义成宏时就少了一层函数调用。tolower和toupper根据需要,或者用外部函数__ctype_tolower_loc()和__ctype_toupper_loc()来实现,并实现成内联函数;或者直接定义成宏,用这里定义的__tobody(c, f, a, args)来实现。这两者都差不多,因为内联函数也相当于具有宏的特征。
	    (6)__BEGIN_DECLS/__END_DECLS宏用来表示数据结构、全局变量、函数原型声明的开始和结束。这类似于MFC中的BEGIN_MESSAGE_MAP/END_MESSAGE_MAP。__BEGIN_NAMESPACE_STD/__END_NAMESPACE_STD宏表示C标准库函数原型声明的开始和结束。__BEGIN_NAMESPACE_C99/__END_NAMESPACE_C99表示C99标准中的函数声明。
	   2、wctype.h: C89增补1中引入,是ctype.h中各个函数的宽字符处理版本,能对宽字符进行属性分类和转换。还定义了通用属性类型wctype_t,表示字符转换的类型wctrans_t,构造属性的函数wctype,测试属性的通用函数iswctype,构造转换的函数wctrans,实行转换的通用函数towctrans。
				- 			  
- 			#ifndef _WCTYPE_H  
- 			#include <features.h>  
- 			#include <bits/types.h>  
- 			#ifndef __need_iswxxx  
- 			# define _WCTYPE_H  1  
- 			  
- 			# define __need_wint_t  
- 			# include <wchar.h>  
- 			  
- 			# ifndef WEOF  
- 			#  define WEOF (0xffffffffu)  
- 			# endif  
- 			#endif  
- 			#undef __need_iswxxx  
- 			  
- 			#ifndef __iswxxx_defined  
- 			# define __iswxxx_defined   1  
- 			__BEGIN_NAMESPACE_C99  
- 			  
- 			typedef unsigned long int wctype_t;   
- 			__END_NAMESPACE_C99  
- 			# ifndef _ISwbit  
- 			 
- 			  
- 			#  include <endian.h>  
- 			#  if __BYTE_ORDER == __BIG_ENDIAN  
- 			#   define _ISwbit(bit) (1 << (bit))  
- 			#  else /* 否则__BYTE_ORDER==__LITTLE_ENDIAN,是小端字节序 */  
- 			#   define _ISwbit(bit) /  
- 			    ((bit) < 8 ? (int) ((1UL << (bit)) << 24)                  /  
- 			     : ((bit) < 16 ? (int) ((1UL << (bit)) << 8)               /  
- 			        : ((bit) < 24 ? (int) ((1UL << (bit)) >> 8)                /  
- 			           : (int) ((1UL << (bit)) >> 24))))  
- 			#  endif  
- 			enum  
- 			{  
- 			  __ISwupper = 0,             
- 			  __ISwlower = 1,             
- 			  __ISwalpha = 2,             
- 			  __ISwdigit = 3,             
- 			  __ISwxdigit = 4,            
- 			  __ISwspace = 5,             
- 			  __ISwprint = 6,             
- 			  __ISwgraph = 7,             
- 			  __ISwblank = 8,             
- 			  __ISwcntrl = 9,             
- 			  __ISwpunct = 10,            
- 			  __ISwalnum = 11,            
- 			  _ISwupper = _ISwbit (__ISwupper),   
- 			  _ISwlower = _ISwbit (__ISwlower),   
- 			  _ISwalpha = _ISwbit (__ISwalpha),   
- 			  _ISwdigit = _ISwbit (__ISwdigit),   
- 			  _ISwxdigit = _ISwbit (__ISwxdigit),     
- 			  _ISwspace = _ISwbit (__ISwspace),   
- 			  _ISwprint = _ISwbit (__ISwprint),   
- 			  _ISwgraph = _ISwbit (__ISwgraph),   
- 			  _ISwblank = _ISwbit (__ISwblank),   
- 			  _ISwcntrl = _ISwbit (__ISwcntrl),   
- 			  _ISwpunct = _ISwbit (__ISwpunct),   
- 			  _ISwalnum = _ISwbit (__ISwalnum)    
- 			};  
- 			# endif /* Not _ISwbit  */  
- 			  
- 			__BEGIN_DECLS  
- 			__BEGIN_NAMESPACE_C99  
- 			 
- 			 
- 			  
- 			  
- 			extern int iswalnum (wint_t __wc) __THROW;  
- 			 
- 			  
- 			extern int iswalpha (wint_t __wc) __THROW;  
- 			  
- 			extern int iswcntrl (wint_t __wc) __THROW;  
- 			  
- 			extern int iswdigit (wint_t __wc) __THROW;  
- 			  
- 			extern int iswgraph (wint_t __wc) __THROW;  
- 			 
- 			  
- 			extern int iswlower (wint_t __wc) __THROW;  
- 			  
- 			extern int iswprint (wint_t __wc) __THROW;  
- 			  
- 			extern int iswpunct (wint_t __wc) __THROW;  
- 			  
- 			extern int iswspace (wint_t __wc) __THROW;  
- 			 
- 			  
- 			extern int iswupper (wint_t __wc) __THROW;  
- 			  
- 			extern int iswxdigit (wint_t __wc) __THROW;  
- 			  
- 			# ifdef __USE_ISOC99  
- 			extern int iswblank (wint_t __wc) __THROW;  
- 			# endif  
- 			 
- 			 
- 			  
- 			  
- 			extern wctype_t wctype (__const char *__property) __THROW;  
- 			  
- 			extern int iswctype (wint_t __wc, wctype_t __desc) __THROW;  
- 			__END_NAMESPACE_C99  
- 			 
- 			 
- 			  
- 			__BEGIN_NAMESPACE_C99  
- 			  
- 			typedef __const __int32_t *wctrans_t;  
- 			__END_NAMESPACE_C99  
- 			#ifdef __USE_GNU  
- 			__USING_NAMESPACE_C99(wctrans_t)  
- 			#endif  
- 			__BEGIN_NAMESPACE_C99  
- 			  
- 			extern wint_t towlower (wint_t __wc) __THROW;  
- 			  
- 			extern wint_t towupper (wint_t __wc) __THROW;  
- 			__END_NAMESPACE_C99  
- 			__END_DECLS  
- 			#endif  /* need iswxxx.  */  
- 			  
- 			  
- 			#ifdef _WCTYPE_H  
- 			 
- 			 
- 			  
- 			__BEGIN_DECLS  
- 			__BEGIN_NAMESPACE_C99  
- 			  
- 			extern wctrans_t wctrans (__const char *__property) __THROW;  
- 			  
- 			extern wint_t towctrans (wint_t __wc, wctrans_t __desc) __THROW;  
- 			__END_NAMESPACE_C99  
- 			 
- 			  
- 			      
- 			  
- 			__END_DECLS  
- 			#endif  /* __WCTYPE_H defined.  */  
- 			#endif /* wctype.h  */  
 	 
	 
				- 			  
- 			#include <ctype.h>  
- 			#include <wctype.h>  
- 			#include <locale/localeinfo.h>  
- 			#include "wchar-lookup.h"  
- 			  
- 			#define func(name, type)                              /  
- 			  extern int __isw##name (wint_t __wc);                       /  
- 			  int                                         /  
- 			  __isw##name (wint_t wc)                             /  
- 			  {                                       /  
- 			    if (isascii (wc))                                 /  
- 			      return is##name ((int) wc);                         /  
- 			    size_t i = _NL_CURRENT_WORD (LC_CTYPE, _NL_CTYPE_CLASS_OFFSET) + type;    /  
- 			    const char *desc = _NL_CURRENT (LC_CTYPE, i);                 /  
- 			    return wctype_table_lookup (desc, wc);                    /  
- 			  }                                       /  
- 			  weak_alias (__isw##name, isw##name)  
- 			#undef iswalnum  
- 			func (alnum, __ISwalnum)  
- 			libc_hidden_weak (iswalnum)  
- 			#undef iswalpha  
- 			func (alpha, __ISwalpha)  
- 			libc_hidden_weak (iswalpha)  
- 			#undef iswblank  
- 			func (blank, __ISwblank)  
- 			#undef iswcntrl  
- 			func (cntrl, __ISwcntrl)  
- 			#undef iswdigit  
- 			func (digit, __ISwdigit)  
- 			libc_hidden_weak (iswdigit)  
- 			#undef iswlower  
- 			func (lower, __ISwlower)  
- 			libc_hidden_weak (iswlower)  
- 			#undef iswgraph  
- 			func (graph, __ISwgraph)  
- 			#undef iswprint  
- 			func (print, __ISwprint)  
- 			#undef iswpunct  
- 			func (punct, __ISwpunct)  
- 			#undef iswspace  
- 			func (space, __ISwspace)  
- 			libc_hidden_weak (iswspace)  
- 			#undef iswupper  
- 			func (upper, __ISwupper)  
- 			#undef iswxdigit  
- 			func (xdigit, __ISwxdigit)  
- 			libc_hidden_weak (iswxdigit)  
- 			#undef towlower  
- 			  
- 			wint_t  
- 			towlower (wc)  
- 			     wint_t wc;  
- 			{  
- 			    
- 			  size_t i = _NL_CURRENT_WORD (LC_CTYPE, _NL_CTYPE_MAP_OFFSET) + __TOW_tolower;  
- 			    
- 			  const char *desc = _NL_CURRENT (LC_CTYPE, i);  
- 			  return wctrans_table_lookup (desc, wc);   
- 			}  
- 			libc_hidden_def (towlower)  
- 			#undef towupper  
- 			  
- 			wint_t  
- 			towupper (wc)  
- 			     wint_t wc;  
- 			{  
- 			    
- 			  size_t i = _NL_CURRENT_WORD (LC_CTYPE, _NL_CTYPE_MAP_OFFSET) + __TOW_toupper;  
- 			    
- 			  const char *desc = _NL_CURRENT (LC_CTYPE, i);  
- 			  return wctrans_table_lookup (desc, wc);   
- 			}  
- 			libc_hidden_def (towupper)  
 	 
	   解释:
	   (1)wctype.h的实现更通用,它定义一个描述宽字符属性的类型wctype_t,为unsigned long标量类型,实现了可扩展的、特定区域设置的宽字符分类功能。同样它也把所有属性类封装在一个enum中,每个属性对应一个枚举常量。wctype函数用来构造一个字符属性,参数为标识这个属性的字符串,主要有"alnum"、"alpha"、 "cntrl"、"digit"、"graph"、"lower"、"print"等,对应iswxxx属性分类函数。iswctype函数测试宽字符WC是否属于DESC属性类。调用iswctype时LC_CTYPE类别的设置应与wctype构造desc值时的LC_CTYPE设置相同。
	   (2)宽字符集的分类取决于区域设置,其标准属性类映射到ASCII中的关系要理清楚:
	   字母或数字 = 字母 || 数字
	   大(小)写字母 = !控制字符 && !数字 && !标点符号 && !空白字符
	   字母 = (大写字母 || 小写字母) && !控制字符 && !数字 && !标点符号 && !空白字符   
	   图形字符 = 可打印字符 && !空格
	   标点符号 = 可打印字符 && !字母 && !数字 && !空白字符
	   空白字符 = !字母 && !数字 && !图形字符 && !标点符号
	   (3)对字符属性的转换,wctype.h也定义了一个描述宽字符转换的类型wctrans_t,为32位整型指针。wctrans函数用来构造一个字符转换,参数为标识这个转换的字符串,主要有"tolower"、"toupper",对应towxxx转换函数,这个转换针对当前区域设置的LC_CTYPE类别值。towctrans函数使用DESC所示的转换来对宽字符WC进行转换。
	   (4)在函数实现文件wcfuncs.c中,同样用了一个宏func(name, type)来简化实现。实现代码主要用到了_NL_CURRENT_WORD宏、LC_CTYPE类别宏、NL_CTYPE_MAP_OFFSET偏移宏。这些宏的功能在编译器内部或其附带的库中实现了。wctrans_table_lookup函数在wchar-lookup.h中定义,用于查询映射表,以获得转换后的宽字符。映射表有点类似于Unix的文件结构,用32位的字作为下标索引。宽字符集的每个字符被切割成4个比特块存储在位表的前面表项中,后面的几个表项存放了一级子表、二级子表、以及三级子表的指针。