學(xué)習(xí)如何用 C 語(yǔ)言來(lái)進(jìn)行文件輸入輸出操作

作者：Jim Hall 2021-03-31 12:41:24

如果你打算學(xué)習(xí) C 語(yǔ)言的輸入、輸出，可以從 stdio.h 包含文件開(kāi)始。正如你從其名字中猜到的，該文件定義了所有的標(biāo)準(zhǔn)（“std”）的輸入和輸出（“io”）函數(shù)。

[[390686]]

理解 I/O 有助于提升你的效率。

如果你打算學(xué)習(xí) C 語(yǔ)言的輸入、輸出，可以從 stdio.h 包含文件開(kāi)始。正如你從其名字中猜到的，該文件定義了所有的標(biāo)準(zhǔn)（“std”）的輸入和輸出（“io”）函數(shù)。

大多數(shù)人學(xué)習(xí)的第一個(gè) stdio.h 的函數(shù)是打印格式化輸出的 printf 函數(shù)。或者是用來(lái)打印一個(gè)字符串的 puts 函數(shù)。這些函數(shù)非常有用，可以將信息打印給用戶(hù)，但是如果你想做更多的事情，則需要了解其他函數(shù)。

你可以通過(guò)編寫(xiě)一個(gè)常見(jiàn) Linux 命令的副本來(lái)了解其中一些功能和方法。cp 命令主要用于復(fù)制文件。如果你查看 cp 的幫助手冊(cè)，可以看到 cp 命令支持非常多的參數(shù)和選項(xiàng)。但最簡(jiǎn)單的功能，就是復(fù)制文件：

cp infile outfile

你只需使用一些讀寫(xiě)文件的基本函數(shù)，就可以用 C 語(yǔ)言來(lái)自己實(shí)現(xiàn) cp 命令。

一次讀寫(xiě)一個(gè)字符

你可以使用 fgetc 和 fputc 函數(shù)輕松地進(jìn)行輸入輸出。這些函數(shù)一次只讀寫(xiě)一個(gè)字符。該用法被定義在 stdio.h，并且這也很淺顯易懂：fgetc 是從文件中讀取一個(gè)字符，fputc 是將一個(gè)字符保存到文件中。

int fgetc(FILE *stream);
int fputc(int c, FILE *stream);

編寫(xiě) cp 命令需要訪(fǎng)問(wèn)文件。在 C 語(yǔ)言中，你使用 fopen 函數(shù)打開(kāi)一個(gè)文件，該函數(shù)需要兩個(gè)參數(shù)：文件名和打開(kāi)文件的模式。模式通常是從文件讀取（r）或向文件寫(xiě)入（w）。打開(kāi)文件的方式也有其他選項(xiàng)，但是對(duì)于本教程而言，僅關(guān)注于讀寫(xiě)操作。

因此，將一個(gè)文件復(fù)制到另一個(gè)文件就變成了打開(kāi)源文件和目標(biāo)文件，接著，不斷從第一個(gè)文件讀取字符，然后將該字符寫(xiě)入第二個(gè)文件。fgetc 函數(shù)返回從輸入文件中讀取的單個(gè)字符，或者當(dāng)文件完成后返回文件結(jié)束標(biāo)記（EOF）。一旦讀取到 EOF，你就完成了復(fù)制操作，就可以關(guān)閉兩個(gè)文件。該代碼如下所示：

  do {
    ch = fgetc(infile);
    if (ch != EOF) {
      fputc(ch, outfile);
    }
  } while (ch != EOF);

你可以使用此循環(huán)編寫(xiě)自己的 cp 程序，以使用 fgetc 和 fputc 函數(shù)一次讀寫(xiě)一個(gè)字符。cp.c 源代碼如下所示：

#include <stdio.h>
 
int
main(int argc, char **argv)
{
  FILE *infile;
  FILE *outfile;
  int ch;
 
  /* parse the command line */
 
  /* usage: cp infile outfile */
 
  if (argc != 3) {
    fprintf(stderr, "Incorrect usage\n");
    fprintf(stderr, "Usage: cp infile outfile\n");
    return 1;
  }
 
  /* open the input file */
 
  infile = fopen(argv[1], "r");
  if (infile == NULL) {
    fprintf(stderr, "Cannot open file for reading: %s\n", argv[1]);
    return 2;
  }
 
  /* open the output file */
 
  outfile = fopen(argv[2], "w");
  if (outfile == NULL) {
    fprintf(stderr, "Cannot open file for writing: %s\n", argv[2]);
    fclose(infile);
    return 3;
  }
 
  /* copy one file to the other */
 
  /* use fgetc and fputc */
 
  do {
    ch = fgetc(infile);
    if (ch != EOF) {
      fputc(ch, outfile);
    }
  } while (ch != EOF);
 
  /* done */
 
  fclose(infile);
  fclose(outfile);
 
  return 0;
}

你可以使用 gcc 來(lái)將 cp.c 文件編譯成一個(gè)可執(zhí)行文件：

$ gcc -Wall -o cp cp.c

-o cp 選項(xiàng)告訴編譯器將編譯后的程序保存到 cp 文件中。-Wall 選項(xiàng)告訴編譯器提示所有可能的警告，如果你沒(méi)有看到任何警告，則表示一切正常。

讀寫(xiě)數(shù)據(jù)塊

通過(guò)每次讀寫(xiě)一個(gè)字符來(lái)實(shí)現(xiàn)自己的 cp 命令可以完成這項(xiàng)工作，但這并不是很快。在復(fù)制“日常”文件（例如文檔和文本文件）時(shí)，你可能不會(huì)注意到，但是在復(fù)制大型文件或通過(guò)網(wǎng)絡(luò)復(fù)制文件時(shí)，你才會(huì)注意到差異。每次處理一個(gè)字符需要大量的開(kāi)銷(xiāo)。

實(shí)現(xiàn)此 cp 命令的一種更好的方法是，讀取一塊的輸入數(shù)據(jù)到內(nèi)存中（稱(chēng)為緩存），然后將該數(shù)據(jù)集合寫(xiě)入到第二個(gè)文件。這樣做的速度要快得多，因?yàn)槌绦蚩梢砸淮巫x取更多的數(shù)據(jù)，這就就減少了從文件中“讀取”的次數(shù)。

你可以使用 fread 函數(shù)將文件讀入一個(gè)變量中。這個(gè)函數(shù)有幾個(gè)參數(shù)：將數(shù)據(jù)讀入的數(shù)組或內(nèi)存緩沖區(qū)的指針（ptr），要讀取的最小對(duì)象的大小（size），要讀取對(duì)象的個(gè)數(shù)（nmemb），以及要讀取的文件（stream）：

size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream);

不同的選項(xiàng)為更高級(jí)的文件輸入和輸出（例如，讀取和寫(xiě)入具有特定數(shù)據(jù)結(jié)構(gòu)的文件）提供了很大的靈活性。但是，在從一個(gè)文件讀取數(shù)據(jù)并將數(shù)據(jù)寫(xiě)入另一個(gè)文件的簡(jiǎn)單情況下，可以使用一個(gè)由字符數(shù)組組成的緩沖區(qū)。

你可以使用 fwrite 函數(shù)將緩沖區(qū)中的數(shù)據(jù)寫(xiě)入到另一個(gè)文件。這使用了與 fread 函數(shù)有相似的一組選項(xiàng)：要從中讀取數(shù)據(jù)的數(shù)組或內(nèi)存緩沖區(qū)的指針，要讀取的最小對(duì)象的大小，要讀取對(duì)象的個(gè)數(shù)以及要寫(xiě)入的文件。

size_t fwrite(const void *ptr, size_t size, size_t nmemb, FILE *stream);

如果程序?qū)⑽募x入緩沖區(qū)，然后將該緩沖區(qū)寫(xiě)入另一個(gè)文件，則數(shù)組（ptr）可以是固定大小的數(shù)組。例如，你可以使用長(zhǎng)度為 200 個(gè)字符的字符數(shù)組作為緩沖區(qū)。

在該假設(shè)下，你需要更改 cp 程序中的循環(huán)，以將數(shù)據(jù)從文件讀取到緩沖區(qū)中，然后將該緩沖區(qū)寫(xiě)入另一個(gè)文件中：

  while (!feof(infile)) {
    buffer_length = fread(buffer, sizeof(char), 200, infile);
    fwrite(buffer, sizeof(char), buffer_length, outfile);
  }

這是更新后的 cp 程序的完整源代碼，該程序現(xiàn)在使用緩沖區(qū)讀取和寫(xiě)入數(shù)據(jù)：

#include <stdio.h>
 
int
main(int argc, char **argv)
{
  FILE *infile;
  FILE *outfile;
  char buffer[200];
  size_t buffer_length;
 
  /* parse the command line */
 
  /* usage: cp infile outfile */
 
  if (argc != 3) {
    fprintf(stderr, "Incorrect usage\n");
    fprintf(stderr, "Usage: cp infile outfile\n");
    return 1;
  }
 
  /* open the input file */
 
  infile = fopen(argv[1], "r");
  if (infile == NULL) {
    fprintf(stderr, "Cannot open file for reading: %s\n", argv[1]);
    return 2;
  }
 
  /* open the output file */
 
  outfile = fopen(argv[2], "w");
  if (outfile == NULL) {
    fprintf(stderr, "Cannot open file for writing: %s\n", argv[2]);
    fclose(infile);
    return 3;
  }
 
  /* copy one file to the other */
 
  /* use fread and fwrite */
 
  while (!feof(infile)) {
    buffer_length = fread(buffer, sizeof(char), 200, infile);
    fwrite(buffer, sizeof(char), buffer_length, outfile);
  }
 
  /* done */
 
  fclose(infile);
  fclose(outfile);
 
  return 0;
}

由于你想將此程序與其他程序進(jìn)行比較，因此請(qǐng)將此源代碼另存為 cp2.c。你可以使用 gcc 編譯程序：

$ gcc -Wall -o cp2 cp2.c

和之前一樣，-o cp2 選項(xiàng)告訴編譯器將編譯后的程序保存到 cp2 程序文件中。-Wall 選項(xiàng)告訴編譯器打開(kāi)所有警告。如果你沒(méi)有看到任何警告，則表示一切正常。

是的，這真的更快了

使用緩沖區(qū)讀取和寫(xiě)入數(shù)據(jù)是實(shí)現(xiàn)此版本 cp 程序更好的方法。由于它可以一次將文件的多個(gè)數(shù)據(jù)讀取到內(nèi)存中，因此該程序不需要頻繁讀取數(shù)據(jù)。在小文件中，你可能沒(méi)有注意到使用這兩種方案的區(qū)別，但是如果你需要復(fù)制大文件，或者在較慢的介質(zhì)（例如通過(guò)網(wǎng)絡(luò)連接）上復(fù)制數(shù)據(jù)時(shí)，會(huì)發(fā)現(xiàn)明顯的差距。

我使用 Linux time 命令進(jìn)行了比較。此命令可以運(yùn)行另一個(gè)程序，然后告訴你該程序花費(fèi)了多長(zhǎng)時(shí)間。對(duì)于我的測(cè)試，我希望了解所花費(fèi)時(shí)間的差距，因此我復(fù)制了系統(tǒng)上的 628 MB CD-ROM 鏡像文件。

我首先使用標(biāo)準(zhǔn)的 Linux 的 cp 命令復(fù)制了映像文件，以查看所需多長(zhǎng)時(shí)間。一開(kāi)始通過(guò)運(yùn)行 Linux 的 cp 命令，同時(shí)我還避免使用 Linux 內(nèi)置的文件緩存系統(tǒng)，使其不會(huì)給程序帶來(lái)誤導(dǎo)性能提升的可能性。使用 Linux cp 進(jìn)行的測(cè)試，總計(jì)花費(fèi)不到一秒鐘的時(shí)間：

$ time cp FD13LIVE.iso tmpfile
 
real    0m0.040s
user    0m0.001s
sys     0m0.003s

運(yùn)行我自己實(shí)現(xiàn)的 cp 命令版本，復(fù)制同一文件要花費(fèi)更長(zhǎng)的時(shí)間。每次讀寫(xiě)一個(gè)字符則花了將近五秒鐘來(lái)復(fù)制文件：

$ time ./cp FD13LIVE.iso tmpfile
 
real    0m4.823s
user    0m4.100s
sys     0m0.571s

從輸入讀取數(shù)據(jù)到緩沖區(qū)，然后將該緩沖區(qū)寫(xiě)入輸出文件則要快得多。使用此方法復(fù)制文件花不到一秒鐘：

$ time ./cp2 FD13LIVE.iso tmpfile
 
real    0m0.944s
user    0m0.224s
sys     0m0.608s

我演示的 cp 程序使用了 200 個(gè)字符大小的緩沖區(qū)。我確信如果一次將更多文件數(shù)據(jù)讀入內(nèi)存，該程序?qū)⑦\(yùn)行得更快。但是，通過(guò)這種比較，即使只有 200 個(gè)字符的緩沖區(qū)，你也已經(jīng)看到了性能上的巨大差異。

責(zé)任編輯：龐桂玉來(lái)源： Linux中國(guó)