學(xué)習(xí)如何用 C 語(yǔ)言來(lái)進(jìn)行文件輸入輸出操作
理解 I/O 有助于提升你的效率。
如果你打算學(xué)習(xí) C 語(yǔ)言的輸入、輸出,可以從 stdio.h 包含文件開(kāi)始。正如你從其名字中猜到的,該文件定義了所有的標(biāo)準(zhǔn)(“std”)的輸入和輸出(“io”)函數(shù)。
大多數(shù)人學(xué)習(xí)的第一個(gè) stdio.h 的函數(shù)是打印格式化輸出的 printf 函數(shù)。或者是用來(lái)打印一個(gè)字符串的 puts 函數(shù)。這些函數(shù)非常有用,可以將信息打印給用戶(hù),但是如果你想做更多的事情,則需要了解其他函數(shù)。
你可以通過(guò)編寫(xiě)一個(gè)常見(jiàn) Linux 命令的副本來(lái)了解其中一些功能和方法。cp 命令主要用于復(fù)制文件。如果你查看 cp 的幫助手冊(cè),可以看到 cp 命令支持非常多的參數(shù)和選項(xiàng)。但最簡(jiǎn)單的功能,就是復(fù)制文件:
cp infile outfile
你只需使用一些讀寫(xiě)文件的基本函數(shù),就可以用 C 語(yǔ)言來(lái)自己實(shí)現(xiàn) cp 命令。
一次讀寫(xiě)一個(gè)字符
你可以使用 fgetc 和 fputc 函數(shù)輕松地進(jìn)行輸入輸出。這些函數(shù)一次只讀寫(xiě)一個(gè)字符。該用法被定義在 stdio.h,并且這也很淺顯易懂:fgetc 是從文件中讀取一個(gè)字符,fputc 是將一個(gè)字符保存到文件中。
int fgetc(FILE *stream);int fputc(int c, FILE *stream);
編寫(xiě) cp 命令需要訪(fǎng)問(wèn)文件。在 C 語(yǔ)言中,你使用 fopen 函數(shù)打開(kāi)一個(gè)文件,該函數(shù)需要兩個(gè)參數(shù):文件名和打開(kāi)文件的模式。模式通常是從文件讀取(r)或向文件寫(xiě)入(w)。打開(kāi)文件的方式也有其他選項(xiàng),但是對(duì)于本教程而言,僅關(guān)注于讀寫(xiě)操作。
因此,將一個(gè)文件復(fù)制到另一個(gè)文件就變成了打開(kāi)源文件和目標(biāo)文件,接著,不斷從第一個(gè)文件讀取字符,然后將該字符寫(xiě)入第二個(gè)文件。fgetc 函數(shù)返回從輸入文件中讀取的單個(gè)字符,或者當(dāng)文件完成后返回文件結(jié)束標(biāo)記(EOF)。一旦讀取到 EOF,你就完成了復(fù)制操作,就可以關(guān)閉兩個(gè)文件。該代碼如下所示:
doch = fgetc(infile);if (ch != EOF) {fputc(ch, outfile);}} while (ch != EOF);
你可以使用此循環(huán)編寫(xiě)自己的 cp 程序,以使用 fgetc 和 fputc 函數(shù)一次讀寫(xiě)一個(gè)字符。cp.c 源代碼如下所示:
#include <stdio.h>intmain(int argc, char **argv){FILE *infile;FILE *outfile;int ch;/* parse the command line *//* usage: cp infile outfile */if (argc != 3) {fprintf(stderr, "Incorrect usage\n");fprintf(stderr, "Usage: cp infile outfile\n");return 1;}/* open the input file */infile = fopen(argv[1], "r");if (infile == NULL) {fprintf(stderr, "Cannot open file for reading: %s\n", argv[1]);return 2;}/* open the output file */outfile = fopen(argv[2], "w");if (outfile == NULL) {fprintf(stderr, "Cannot open file for writing: %s\n", argv[2]);fclose(infile);return 3;}/* copy one file to the other *//* use fgetc and fputc */do {ch = fgetc(infile);if (ch != EOF) {fputc(ch, outfile);}} while (ch != EOF);/* done */fclose(infile);fclose(outfile);return 0;}
你可以使用 gcc 來(lái)將 cp.c 文件編譯成一個(gè)可執(zhí)行文件:
$ gcc -Wall -o cp cp.c
-o cp 選項(xiàng)告訴編譯器將編譯后的程序保存到 cp 文件中。-Wall 選項(xiàng)告訴編譯器提示所有可能的警告,如果你沒(méi)有看到任何警告,則表示一切正常。
讀寫(xiě)數(shù)據(jù)塊
通過(guò)每次讀寫(xiě)一個(gè)字符來(lái)實(shí)現(xiàn)自己的 cp 命令可以完成這項(xiàng)工作,但這并不是很快。在復(fù)制“日常”文件(例如文檔和文本文件)時(shí),你可能不會(huì)注意到,但是在復(fù)制大型文件或通過(guò)網(wǎng)絡(luò)復(fù)制文件時(shí),你才會(huì)注意到差異。每次處理一個(gè)字符需要大量的開(kāi)銷(xiāo)。
實(shí)現(xiàn)此 cp 命令的一種更好的方法是,讀取一塊的輸入數(shù)據(jù)到內(nèi)存中(稱(chēng)為緩存),然后將該數(shù)據(jù)集合寫(xiě)入到第二個(gè)文件。這樣做的速度要快得多,因?yàn)槌绦蚩梢砸淮巫x取更多的數(shù)據(jù),這就就減少了從文件中“讀取”的次數(shù)。
你可以使用 fread 函數(shù)將文件讀入一個(gè)變量中。這個(gè)函數(shù)有幾個(gè)參數(shù):將數(shù)據(jù)讀入的數(shù)組或內(nèi)存緩沖區(qū)的指針(ptr),要讀取的最小對(duì)象的大小(size),要讀取對(duì)象的個(gè)數(shù)(nmemb),以及要讀取的文件(stream):
size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream);
不同的選項(xiàng)為更高級(jí)的文件輸入和輸出(例如,讀取和寫(xiě)入具有特定數(shù)據(jù)結(jié)構(gòu)的文件)提供了很大的靈活性。但是,在從一個(gè)文件讀取數(shù)據(jù)并將數(shù)據(jù)寫(xiě)入另一個(gè)文件的簡(jiǎn)單情況下,可以使用一個(gè)由字符數(shù)組組成的緩沖區(qū)。
你可以使用 fwrite 函數(shù)將緩沖區(qū)中的數(shù)據(jù)寫(xiě)入到另一個(gè)文件。這使用了與 fread 函數(shù)有相似的一組選項(xiàng):要從中讀取數(shù)據(jù)的數(shù)組或內(nèi)存緩沖區(qū)的指針,要讀取的最小對(duì)象的大小,要讀取對(duì)象的個(gè)數(shù)以及要寫(xiě)入的文件。
size_t fwrite(const void *ptr, size_t size, size_t nmemb, FILE *stream);
如果程序?qū)⑽募x入緩沖區(qū),然后將該緩沖區(qū)寫(xiě)入另一個(gè)文件,則數(shù)組(ptr)可以是固定大小的數(shù)組。例如,你可以使用長(zhǎng)度為 200 個(gè)字符的字符數(shù)組作為緩沖區(qū)。
在該假設(shè)下,你需要更改 cp 程序中的循環(huán),以將數(shù)據(jù)從文件讀取到緩沖區(qū)中,然后將該緩沖區(qū)寫(xiě)入另一個(gè)文件中:
while (!feof(infile)) {buffer_length = fread(buffer, sizeof(char), 200, infile);fwrite(buffer, sizeof(char), buffer_length, outfile);}
這是更新后的 cp 程序的完整源代碼,該程序現(xiàn)在使用緩沖區(qū)讀取和寫(xiě)入數(shù)據(jù):
#include <stdio.h>intmain(int argc, char **argv){FILE *infile;FILE *outfile;char buffer[200];size_t buffer_length;/* parse the command line *//* usage: cp infile outfile */if (argc != 3) {fprintf(stderr, "Incorrect usage\n");fprintf(stderr, "Usage: cp infile outfile\n");return 1;}/* open the input file */infile = fopen(argv[1], "r");if (infile == NULL) {fprintf(stderr, "Cannot open file for reading: %s\n", argv[1]);return 2;}/* open the output file */outfile = fopen(argv[2], "w");if (outfile == NULL) {fprintf(stderr, "Cannot open file for writing: %s\n", argv[2]);fclose(infile);return 3;}/* copy one file to the other *//* use fread and fwrite */while (!feof(infile)) {buffer_length = fread(buffer, sizeof(char), 200, infile);fwrite(buffer, sizeof(char), buffer_length, outfile);}/* done */fclose(infile);fclose(outfile);return 0;}
由于你想將此程序與其他程序進(jìn)行比較,因此請(qǐng)將此源代碼另存為 cp2.c。你可以使用 gcc 編譯程序:
$ gcc -Wall -o cp2 cp2.c
和之前一樣,-o cp2 選項(xiàng)告訴編譯器將編譯后的程序保存到 cp2 程序文件中。-Wall 選項(xiàng)告訴編譯器打開(kāi)所有警告。如果你沒(méi)有看到任何警告,則表示一切正常。
是的,這真的更快了
使用緩沖區(qū)讀取和寫(xiě)入數(shù)據(jù)是實(shí)現(xiàn)此版本 cp 程序更好的方法。由于它可以一次將文件的多個(gè)數(shù)據(jù)讀取到內(nèi)存中,因此該程序不需要頻繁讀取數(shù)據(jù)。在小文件中,你可能沒(méi)有注意到使用這兩種方案的區(qū)別,但是如果你需要復(fù)制大文件,或者在較慢的介質(zhì)(例如通過(guò)網(wǎng)絡(luò)連接)上復(fù)制數(shù)據(jù)時(shí),會(huì)發(fā)現(xiàn)明顯的差距。
我使用 Linux time 命令進(jìn)行了比較。此命令可以運(yùn)行另一個(gè)程序,然后告訴你該程序花費(fèi)了多長(zhǎng)時(shí)間。對(duì)于我的測(cè)試,我希望了解所花費(fèi)時(shí)間的差距,因此我復(fù)制了系統(tǒng)上的 628 MB CD-ROM 鏡像文件。
我首先使用標(biāo)準(zhǔn)的 Linux 的 cp 命令復(fù)制了映像文件,以查看所需多長(zhǎng)時(shí)間。一開(kāi)始通過(guò)運(yùn)行 Linux 的 cp 命令,同時(shí)我還避免使用 Linux 內(nèi)置的文件緩存系統(tǒng),使其不會(huì)給程序帶來(lái)誤導(dǎo)性能提升的可能性。使用 Linux cp 進(jìn)行的測(cè)試,總計(jì)花費(fèi)不到一秒鐘的時(shí)間:
$ time cp FD13LIVE.iso tmpfilereal 0m0.040suser 0m0.001ssys 0m0.003s
運(yùn)行我自己實(shí)現(xiàn)的 cp 命令版本,復(fù)制同一文件要花費(fèi)更長(zhǎng)的時(shí)間。每次讀寫(xiě)一個(gè)字符則花了將近五秒鐘來(lái)復(fù)制文件:
$ time ./cp FD13LIVE.iso tmpfilereal 0m4.823suser 0m4.100ssys 0m0.571s
從輸入讀取數(shù)據(jù)到緩沖區(qū),然后將該緩沖區(qū)寫(xiě)入輸出文件則要快得多。使用此方法復(fù)制文件花不到一秒鐘:
$ time ./cp2 FD13LIVE.iso tmpfilereal 0m0.944suser 0m0.224ssys 0m0.608s
我演示的 cp 程序使用了 200 個(gè)字符大小的緩沖區(qū)。我確信如果一次將更多文件數(shù)據(jù)讀入內(nèi)存,該程序?qū)⑦\(yùn)行得更快。但是,通過(guò)這種比較,即使只有 200 個(gè)字符的緩沖區(qū),你也已經(jīng)看到了性能上的巨大差異。






















