Windows java 开源 google 微软 mysql Ubuntu Android php 程序员 Python apache centos shell nginx 编程 linux wordpress Firefox 云计算

Linux知識深似海

Linux知识深似海

如果你有一個 4.2GB 的 CSV 文件,裏面有超過 1200 萬條記錄,每條記錄都有 50 列。現在你要做的是把其中某一列的值全加起來。

你怎麽辦?

        這是我最近看到的一篇文章的開頭部分。文章介紹的是如何使用 unix 命令來分析大體積文件的文章。像我這樣一個基本上都在 Windows 平臺上開發的程序員,對他提出的這樣一個問題,首先出現在腦子裏的就是內存溢出、CPU 達到 100%、跑一個晚上。而對於一個 Linux/unix 高手來說,這真是小菜一碟,正如文章中介紹的方法,一行命令就完成了這個任務。

        (假設文件名叫做 data.csv,行數據用豎線分割,我們需要總計其中的第四列。)

cat data.csv awk -F “” ‘{ sum += $4 } END { printf “%.2f\n”, sum }’

        簡潔幹凈,而且裏面的{ sum += $4 }很有閉包的味道。讓我對 Linux 的向往又加深了一層。

        我寫這篇博客的目的並不是抒發對 Linux 的感情的,而是重點講一下發生在這篇文章評論裏的事情。這篇文章吸引了不少 Linux 愛好者的評論,而且都是 Liunx 高手,僅僅是第一條評論,看了後就讓我驚訝的合不上嘴。

        這位叫做 California Lotto 的網名的評論是:

如果你認為自己是一個 Linux 命令行高手,那恭喜你贏得今天的“最沒用的 Cat 用法”大獎。你應該這樣寫這個命令:

awk -F "" '{ sum += $4 } END { printf "%.2f\n", sum }' < data.csv

        的確,cat 在這裏似乎是沒必要的。我首先是佩服,可之後馬上感覺這個人可真討厭,賣弄。雖然我不喜歡他無視作者寫這片好博文的辛苦,但作為外行人,他和作者一樣都是我高不可及的。

        可是當我讀第二條評論時,事情出現了戲劇性的變化,這第二條評論明顯是真對第一條評論的:

如果你認為自己是一個 Linux 命令行高手,那恭喜你贏得今天的“最沒用的重定向用法”獎。你應該這樣寫這個命令:

awk -F "" '{ sum += $4 } END { printf "%.2f\n", sum }' data.csv

        正所謂強中自有強中手,一山更比一山高。我突然意識到,其實沒必要在這裏比誰比誰更強,在這個浩瀚的互聯網裏,永遠都會有比你在某方法更出眾的 人。這裏重要的是探討和參與。通過這種探討,不僅豐富了你我的知識,而且對問題的解決方案有了更豐富的認識。正像接下來的評論裏繼續指出,命令行這的重定 向符放在什麽地方都可以,寫成這樣也是好用的:

 

 

        ,

神奇吧!而接下來繼續有人指出,作者在實驗時寫成這樣:

head -1 data.psv awk -F’’ ‘{print NF}’

        ,實驗成功後直接把head改成cat是順理成章的事。

        不管怎樣,這是一篇好文章,這些人都是高手,都是我的老師,不僅教我編程知識,更教我如何做人。

延伸阅读

评论