Tuesday, 19 January 2016

[ML] Giới thiệu machine learning

Machine learning /məˈʃiːn  ˈləːnɪŋ/ (mơ shin lơn ning) dịch nôm na là máy học, có tài liệu tiếng Việt ghi là học máy nhưng ở đây sẽ chỉ nhắc đến là machine learning hay ML.

Machine learning là gì?
Machine learning là một ngành khoa học (science) để làm cho máy tính có thể tự học mà không cần lập trình cụ thể chi tiết việc nó học. Hay có thể cho là bạn ném cho phần mềm một thuật toán, và nó tự xử lý các vấn đề (tương tự nhau) bằng thuật toán ấy.


Machine learning là một kỹ năng (skill) nằm trong top 10 kỹ năng hot nhất cho một data scientist (nhà khoa học về xử lý dữ liệu) hiện nay.

Machine learning là một lĩnh vực khá mới, được giảng dạy ở một số trường đại học lớn trên thế giới, đáng kể nhất là Stanford - và đặc biệt hơn lớp này có khoá học online miễn phí tại https://www.coursera.org/learn/machine-learning/ (lớp tiếp theo sẽ mở vào 25/Jan/2016)

Một số ứng dụng của machine learning

- Data mining (khai phá dữ liệu): từ một tập dữ liệu lớn, chắt lọc thông tin có giá trị trong đó ra.
Ví dụ cho 1 triệu bản ghi về các ca mắc bệnh ung thư, gồm các thông tin tuổi tác, kích thước khối u ...
tìm ra mối liên hệ giữa các thông tin này và có thể kiểm tra xem với 1 đầu vào cụ thể, dự đoán có mắc ung thư hay không.
- Những ứng dụng không thể lập trình đơn thuần: nhận diện chữ viết tay, điều khiển máy bay trực thăng, xử lý ngôn ngữ tự nhiên (NPL), xử lý hình ảnh (computer vision).
- Các chương trình tự tuỳ chỉnh: có thể kể đến các hệ thống giới thiệu sản phẩm dựa trên các thông tin của người dùng. Ví dụ: khi người dùng chọn mua một cái bàn phím, hệ thống có thể giới thiệu mua chuột, mua bộ lau rửa bàn phím... Những ứng dụng này không thể viết cho từng người dùng bằng điều kiện if/else ... vì số điều kiện phải đưa ra là vô hạn - bởi mỗi người dùng đã có vô hạn các trường hợp có thể xảy ra.
- Tìm hiểu quá trình học tập của con người.

Machine learning là một cách để tiếp cận Artificial Intelligent (AI - trí tuệ nhân tạo).

Các vấn đề mà machine learning xử lý phân làm 2 hạng mục (category) chính:
- Supervised learning
- Unsupervised learning

Bài viết sau sẽ giới thiệu chi tiết hơn về 2 hạng mục này.

Bài viết dựa trên nội dung tuần 1 của lớp học Machine learning của Stanford trên
coursera. Đây là ghi chú trong quá trình học tập của tác giả, sẽ có thể có nhiều điều chưa chuẩn xác, mong bạn đọc góp ý để các bài viết có ích hơn.

HVN @ familug.org