首页 > 编程 > C# > 正文

C#读取二进制文件的困难所在

2023-05-15 12:29:34
字体:
来源:转载
供稿:网友

用 C# 处理二进制文件

用 C# 处理二进制文件的话,就会有另外两项新的挑战。第一项挑战是:所有的 .NET 语言都是强类型的。因此,你不得不从文件中的字节流转换为你所想要的数据类型。第二项挑战就是:一些数据类型比它们表面上要复杂的多,需要某种转换。

类型破坏(type breaking)

因为 .NET 语言,包括 C#,都是强类型的,你不能只是任意的从文件中读取一段字节,然后塞到数据结构中就一切OK了。因此当你要破坏类型转换规则时,你就不得不这样做了,首先读取你所需要的字节数到一个字节数组中,然后把它们从头到尾的复制到数据结构中。

在 Usenet (注:世界性的新闻组网络系统)的文档中搜寻,你会找到几个构架在 microsoft.public.dotnet层次上的一组程序,它们可以容许你把任何对象转换为一系列字节,并可以重新转换回对象。它们可以在下面地址找到 Listing A

复杂的数据类型

在 C# 中,既没有真正的数组,许多对象也没有固定尺寸,因此一些复杂数据类型并不适合成为固定尺寸的二进制数据。

.NET 提供了一种方式来解决这种问题。你可以告诉 C# ,你想怎样处理你的字符串(string)和其它类型的数组。这将通过 MarshalAs 属性来完成。下面这个例子,就是在 C# 中使用字符串,这属性必须要在所控制的数据使用之前被使用:

[MarshalAs(UnmanagedType.ByValTStr, SizeConst = 50)]

你想要从二进制文件中读取,或者储存到二进制文件中的字符串(string)的长度就决定了参数 SizeConst 的大小。这样就确定了字符串长度的最大值。

现在,你知道了 .NET 引入的问题是怎样被解决的了。那么,在后面,你就可以了解到,解决前面所遇到的二进制文件问题是那么的容易。

包装(pack)

不用麻烦的去设定编译器来控制如何排列数据。你只需使用 StructLayout 属性就可以使数据依照你的意愿来排列或打包。当你需要不同的数据有着不同的包装方式的时候,这就显得十分有用了。这就像装扮你的汽车一样,任你的喜好。使用 StructLayout 属性就像你很小心的决定是否把每一个数据都紧凑包装或者还是只将它们随便打发,只要它们能够被重新读出来就行了。 StructLayout 属性的使用如下面所示:

[StructLayout(LayoutKind.Sequential, Pack = 1)]

这样做可以使数据忽略边界对齐,让数据尽可能的紧凑包装。这个属性应当和你从二进制文件中读取的任何数据的属性都保持一致(即:你写到文件中的属性应和从文件读出来属性保持不变)。

你也许会发现,即使给你的数据加上了这个属性后,也没有完全解决问题。在某些情况下,你可能不得不进行沉闷冗长的反复实验。由于不同计算机和编译器在二进制层次上的有着不同的运行处理方式,这就是引起上述问题的原因。特别是在跨平台时,我们都必须特别小心的处理二进制数据。 .NET 是个好工具,适合其它二进制文件,但是也并不是一个完美的工具。

字节排列顺序的翻转(endian flipping)

读写二进制文件的经典问题之一就是:某些计算机首先是储存最不重要的字节(如:Inter),而另外一些计算机是首先储存最重要的字节。在 C 和 C++ 中,你不得不手动处理这个问题,而且只能是一个字段一个字段的翻转。而 .NET 框架的优点之一就是:代码可以在运行时访问类型的元数据(metadata),你也就能够读取信息,并使用它来自动解决数据中每一段的字节排列顺序问题。在 Listing B 上可以找到源代码,你可以了解是如何处理的。

一旦你得知对象的类型,你能够获得数据里的每个部分,并开始检查每一个部分,并确定其是否是一个16位或32位的无符号整数。在任何一种上述情况下,你都可以改变字节的排序顺序,而且不会破坏数据。

注意:你不是用字符串类(string)来完成所有的事。是采用高位优先还是低位优先,并不会影响到字符串类。那些字段是不受翻转代码的影响。你也只是要注意无符号整数而已。因为,负数在不同的系统上,并不是使用同一种表示方式的。负数可以只用一个记号(一位字节)表示,但是更常用的,却是使用两个记号(两位字节)表示。这使得负数在跨平台时有些更困难。幸运的是,负数在二进制文件中极少使用。

这只是多说几句了,同样的,浮点数有时并不是用标准方式表示的。尽管大多数系统是以IEEE格式为基础来设置浮点数的,但是还是有一小部分老的系统使用了其它的格式来设置浮点数的。

克服困难

尽管 C# 还是有一些问题,但是你依旧能够使用它来读取二进制文件。实际上,由于 C# 所使用的那种用来访问对象的元数据(metadata)的方式,使它成为一种能够更好读取二进制文件的语言。因此, C# 能够自动解决整个数据的字节交换(byte swapping)问题。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表