Monday, 1 September 2014

[shell] globbing (not regex)

1. Tên bài viết bằng tiếng Anh vì tác giả không thể tìm ra từ tiếng Việt nào cho phù hợp.
2. globbing không phải là regex matching.
3. bài này nhiều ký tự hoa mắt, xin hãy đọc từ từ, chỗ nào thấy sai thì comment ngay, nếu không globbing / regex mãi là một khái niệm mờ mịt.

Bài viết thực hiện trên:
~ uname -sr
Linux 3.13.0-32-generic
Terminology (thuật ngữ)
1. globbing
- globbing là toán tử expand một wildcard pattern thành danh sách các pathname match pattern đó.

1.1  wildcard pattern
là các pattern có chứa ký tự wildcard (wildcard characters).

1.2 wildcard character

chỉ ký tự có thể dùng thay thế cho một hoặc nhiều ký tự khác.
trong môi trường UNIX-like như Linux, BSDs, các wildcard characters gồm có :

  • * : asterisk hay star - match bất cứ string nào (kể cả empty string)
  • ? : question mark - match bất kỳ MỘT ký tự nào.
  • [ và ]:  square brackets - match MỘT ký tự nằm trong khoảng giới hạn bởi []. Ví dụ [0-9] match một số nằm trong khoảng từ 0 đến 9.

Các ký tự nằm trong dấu [] có các loại:
  • Character class: là liệt kê các ký tự. Ví dụ: [][!] match 3 ký tự ] [ và !
  • Range: là khoảng đặc biệt, định nghĩa bởi 2 ký tự phân cách bởi dấu -. Ví dụ: [a-zA-Z0-9] sẽ match một ký tự trong khoảng từ a đến z, A đến Z hay từ 0 đến 9.
  • Complementation: pattern [!...] sẽ match một ký tự bất kỳ không nằm trong pattern mà ta thu được nếu bỏ đi ký tự !. Ví dụ [!]a-] sẽ match bất kỳ ký tự nào trừ a , ] và -
CHÚ Ý: wildcard characters không match ký tự ``/``

2. glob
chỉ một pattern cụ thể.
Ví dụ: use the glob *.log to match all those log files

Wildcard parttern và regex
- wildcard pattern match filename/filepath != regex match text
- * trong wildcard pattern match TẤT CẢ các string != * trong regex nghĩa là 0 hoặc nhiều copy của thứ đi trước nó.
Ví dụ:
regex:  ba* sẽ match "baaa" hay "baaaaaa" hay "b" nhưng không match "bac" (* match ký tự "a" 0 hoặc nhiều lần)
wildcard pattern: match tất cả các filename bắt đầu bằng "ba".

Định nghĩa glob:
Globbing is the operation  that  expands  a  wildcard pattern  into  the list of pathnames matching the pattern. (man 7 glob)
Tham khảo:
man 7 glob
http://en.wikipedia.org/wiki/Glob_%28programming%29
http://en.wikipedia.org/wiki/Wildcard_character