【TLPI读书笔记】十三、文件I/O缓冲

文件I/O的内核缓冲：缓冲区高速缓存

read()和write()系统调用在操作磁盘文件时不会直接发起磁盘访问，而是仅仅在用户空间缓冲区与内核缓冲区高速缓存之间复制数据。
Linux内核对缓冲区高速缓存对大小没有固定上限。内核会分配尽可能多的缓冲区高速缓存页，而仅受限于两个因素：可用的物理内存总量；以及出于其他目的对物理内存的需求。

缓冲区大小对I/O系统调用性能的影响

如果与文件发生大量的数据传输，通过采用大块空间缓冲数据，以及执行更少的系统调用，可以极大地提高I/O性能。

`stdio`库的缓冲

当操作磁盘文件时，缓冲大块数据以减少系统调用，C语言函数库的I/O函数正是这么做的。因此，使用stdio库可以使编程者免于自行处理对数据的缓冲。

设置一个`stdio`流的缓冲模式

调用setvbuf()函数，可以控制stdio库使用缓冲的形式。

#include <stdio.h>

int setvbuf(FILE *stream, char *buf, int mode, size_t size);
                                    Returns 0 on success, or nonzero on error

参数
- stream：指定文件流。打开流后必须在调用任何其他stdio函数前先调用此函数
- buf：指定缓冲区地址。若该参数为NULL，那么函数将自动分配一个缓冲区，并将忽略size参数
- mode：指定缓冲类型。具有下列值之一：
  - _IONBF：不对I/O进行缓冲
  - _IOLBF：采用行缓冲I/O
  - _IOFBF：采用全缓冲I/O
- size：如果buf参数不为NULL，则该参数表示指定缓冲区大小

刷新`stdio`缓冲区

无论当前采用何种缓冲区模式，在任何时候，都可以使用fflush()库函数强制将stdio输出流中的数据刷新到内核缓冲区中。此函数会刷新指定stream的输出缓冲区。

#include <stdio.h>

int fflush(FILE *stream);
                            Returns 0 on success, EOF on error

若参数stream为NULL，则fflush()将刷新所有的stdio缓冲区。
也能将该函数应用于输入流，这将丢弃已缓冲的输入数据。
当关闭流时，将自动刷新其stdio缓冲区。

控制文件I/O的内核缓冲

强制刷新内核缓冲区到输出文件是可能的，这有时很有必要。

同步I/O数据完整性和同步I/O文件完整性

SUSv3将同步I/O完成定义为：某一I/O操作，要么已成功完成到磁盘的数据传递，要么被诊断为不成功。
SUSv3定义了两种不同类型的同步I/O完成，二者之间的区别涉及用于描述文件的元数据，亦即内核针对文件而存储的数据。

synchronized I/O data integrity completion，旨在确保针对文件的一次更新传递了足够的信息（到磁盘），以便于之后对数据的获取。
- 就读操作而言，这意味着被请求的文件数据已经（从磁盘）传递给进程。
- 就写操作而言，这意味着写请求所指定的数据已传递（至磁盘）完毕，且用于获取数据的所有文件元数据也已传递（至磁盘）完毕。
是上述synchronized I/O data integrity completion的超集。

用于控制文件I/O内核缓冲的系统调用

fsync()系统调用将使缓冲数据和与打开文件描述符fd相关的所有元数据都刷新到磁盘上。调用fsync()会强制使文件处于synchronized I/O data integrity completion状态。

#include <unistd.h>

int fsync(int fd);
                            Returns 0 on success, or -1 on error

仅在对磁盘设备的传递完成后，fsync()调用才会返回。
fdatasync()系统调用的运作类似于fsync()，只是强制文件处于synchronized I/O data integrity completion的状态。

#include <unistd.h>

int fdatasync(int fd);
                            Returns 0 on success, or -1 on error

fdatasync()可能会减少对磁盘操作的次数，由fsync()调用请求的两次变为一次。

sync()系统调用会使包含更新文件信息的所有内核缓冲区（即数据块、指针块、元数据等）刷新到磁盘上。

#include <unistd.h>

void sync(void);

sync()调用仅在所有数据已传递到磁盘上（或者至少高速缓存）时返回。

使所有写入同步：`O_SYNC`

调用open()函数时如指定O_SYNC标志，则会使所有后续输出同步（synchronous）。

`O_SYNC`对性能的影响

采用O_SYNC标志（或者频繁调用sync()、fdatasync()或sync()）对性能的影响极大。

`O_DSYNC`和`O_RSYNC`标志

SUSv3规定了两个与同步I/O有关的、更为细化的打开文件状态标志：O_DSYNC和O_RSYNC。

O_DSYNC标志要求写操作按照synchronized I/O data integrity completion来执行（类似于fdatasync()）。
O_RSYNC标志是与O_SYNC标志或O_DSYNC标志配合一起使用的，将这些标志对写操作的作用结合到读操作中。

I/O缓冲小结

首先是通过stdio库将用户数据传递到stdio缓冲区，该缓冲区位于用户态内存区
当缓冲区填满时，stdio库会调用write()系统调用，将数据传递到内核高速缓冲区（位于内核态内存区）
最终，内核发起磁盘操作，将数据传递到磁盘

就I/O模式向内核提出建议

posix_fadvise()系统调用允许进程就自身访问文件数据时可能采取的模式通知内核。

#define _XOPEN_SOURCE 600
#include <fcntl.h>

int posix_fadvise(int fd, off_t offset, off_t len, int advice);
                   Returns 0 on success, or a positive error number on error

内核可以（但不必非要）根据posix_fadvise()所提供的信息来优化对缓冲区高速缓存对使用，进而提高进程和整个系统的性能。调用posix_fadvise()对程序语义并无影响。

参数
- fd：指定文件描述符
- offset：指定区域起始的偏移量
- len：指定区域的大小（字节为单位）
- advice：表示进程期望对文件采取对访问模式。具体为下列参数之一：
  - POSIX_FADV_NORMAL
  - POSIX_FADV_SEQUENTIAL
  - POSIX_FADV_RANDOM
  - POSIX_FADV_WILLNEED
  - POSIX_FADV_DONTNEED
  - POSIX_FADV_NOREUSE
返回值
- 成功：返回0
- 失败：返回错误码

绕过缓冲区高速缓存：直接I/O

始于内核2.4，Linux允许应用程序在执行磁盘I/O时绕过缓冲区高速缓存，从用户空间直接将数据传递到文件或磁盘设备。有时也称此为直接I/O（direct I/O）或裸I/O（raw I/O）。
可针对一个单独文件或块设备（比如一块磁盘）执行直接I/O。要做到这点，需要在调用open()打开文件或设备时指定O_DIRECT标志。

直接I/O的对齐限制

因为直接I/O涉及对磁盘的直接访问，所以在执行I/O时，必须遵守一些限制：

用于传递数据的缓冲区，其内存边界必须对齐为块大小的整倍数。
数据传输的开始点，亦即文件和设备的偏移量，必须是块大小（block size，指设备的物理块大小）的整倍数。
待传递数据的长度必须是块大小的整数倍。

不遵守上述任一限制均将导致EINVAL错误。

混合使用库函数和系统调用进行文件I/O

在同一文件上执行I/O操作时，还可以将系统调用和标准C语言库函数混合使用。fileno()和fdopen()函数有助于完成这一工作。

#include <stdio.h>
int fileno(FILE *stream);
                        Returns file descriptor on success, or -1 on error
FILE *fdopen(int fd, const char *mode);
                        Returns(new) file pointer on success, or NULL on error

fileno()函数用于由一个给定的文件流获取一个文件描述符，而fdopen()函数则相反，用于由一个给定的文件描述符获取一个文件流。
当使用stdio库函数时，并结合系统I/O调用来实现对磁盘文件的I/O操作时，必须将缓冲问题牢记于心：I/O系统调用会直接将数据传递到内核缓冲区高速缓存，而stdio库函数会等到用户空间的流缓冲区填满，再调用write()将其传递到内核缓冲区高速缓存。

总结

本章介绍了文件I/O的缓冲，其又分为系统I/O缓冲和stdio库函数缓冲，要明白stdio库函数是建立在系统I/O调用函数之上的，所以缓冲区也各自维护一套。

【TLPI读书笔记】十三、文件I/O缓冲

文件I/O的内核缓冲：缓冲区高速缓存

缓冲区大小对I/O系统调用性能的影响

`stdio`库的缓冲

设置一个`stdio`流的缓冲模式

刷新`stdio`缓冲区

控制文件I/O的内核缓冲

同步I/O数据完整性和同步I/O文件完整性

用于控制文件I/O内核缓冲的系统调用

使所有写入同步：`O_SYNC`

`O_SYNC`对性能的影响

`O_DSYNC`和`O_RSYNC`标志

I/O缓冲小结

就I/O模式向内核提出建议

绕过缓冲区高速缓存：直接I/O

直接I/O的对齐限制

混合使用库函数和系统调用进行文件I/O

总结

添加新评论

最新文章

最近回复

分类

归档

其它

【TLPI读书笔记】 十三、文件I/O缓冲

文件I/O的内核缓冲：缓冲区高速缓存

缓冲区大小对I/O系统调用性能的影响

stdio库的缓冲

设置一个stdio流的缓冲模式

刷新stdio缓冲区

控制文件I/O的内核缓冲

同步I/O数据完整性和同步I/O文件完整性

用于控制文件I/O内核缓冲的系统调用

使所有写入同步：O_SYNC

O_SYNC对性能的影响

O_DSYNC和O_RSYNC标志

I/O缓冲小结

就I/O模式向内核提出建议

绕过缓冲区高速缓存：直接I/O

直接I/O的对齐限制

混合使用库函数和系统调用进行文件I/O

总结

添加新评论

最新文章

最近回复

分类

归档

其它

【TLPI读书笔记】十三、文件I/O缓冲

`stdio`库的缓冲

设置一个`stdio`流的缓冲模式

刷新`stdio`缓冲区

使所有写入同步：`O_SYNC`

`O_SYNC`对性能的影响

`O_DSYNC`和`O_RSYNC`标志