Mở đầu về Machine Learning
- 01-09-2021
- chuong xuan
- 0 Comments
Tại sao cần học Machine Learning?
- Spread Sheets (Excel, CSV): Là nơi lưu trữ những dữ liệu cho nhưng business cần thiết, nó là một trong những công cụ tiện ích nhất hiện này. Giúp chúng ta phân tích và biểu diễn dữ liệu mà một business cần.
- Relational DB (MySQL): Là một nơi lưu trữ data tốt hơn Spread Sheets và được thực thi thông qua các câu lệnh query, từ đó business có thể dùng các câu lệnh để tìm kiếm và xử lý dữ liệu.
- Big Data (NoSQL): FB, Amazon, Shopee,… do dữ liệu người dùng lớn, nên được gọi là big data và ở đây những dữ liệu không được tổ chức chặt chẽ, do vậy cần sử dụng machine learning thay con người đưa ra những quyết định.
Một số lĩnh vực liên quan tới machine learning.
Trí tuệ nhân tạo AI ?
Trí tuệ nhân tạo hay trí thông minh nhân tạo (Artificial intelligence – viết tắt là AI) là một ngành thuộc lĩnh vực khoa học máy tính (Computer science). Là trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thông minh như con người.
Machine Learning
Là một nhánh con của AI, machine learing sử dụng những thuật toán (Algorithms) hoặc những chương trình máy tính để học những dữ liệu khác nhau và sau đó sử dụng thuật toán và những gì nó học được trước đó để đưa ra một dự đoán hoặc phân lại dựa trên các dữ liệu tương tự nhau.
VD: Việc phân loại cho mèo hoặc phân tích sản phẩm.
Sự khác nhau giữa Machine Learning và Normal Algorithms
- Normal Algorithm: sử dụng input + thuật toán -> kết quả (output).
- Machine Algorithm: Bắt đầu với input và output -> từ đó xác định quan hệ giữa I/P và O/P.
Một số bài toán trong machine learning
Supervised: Dữ liệu chứa các label
vd: Như dữ liệu chó mèo,…
Unsupervised: Là các dữ liệu không có label giống như một file excel mà không có tiêu đề các cột.
- Clustering: Giúp chúng ta phân cụm các nhóm. vd: Phân cụm khách hàng theo sở thích khách hàng.
- Asociation Rule Learning: Liên kết nhiều thuộc tính từ đó dự đoán hành vi khách hàng. vd Sẽ mua gì trong tương lai.
Reinforcement: Dạy Machine thử và lỗi từ đó sẽ có các phần thưởng để nó cải thiện sau những lần sau. vd: được áp dụng trong alpha go – cỗ máy chơi cờ nổi tiếng thế giới.
Deep Learning
Deep Learning là một tập hợp con của Machine Learning, có khả năng khác biệt ở một số khía cạnh quan trọng so với Machine Learning nông truyền thống, cho phép máy tính giải quyết một loạt các vấn đề phức tạp không thể giải quyết được.
Data Science
Data Analysis: Phân tích dữ liệu từ đó đưa ra những báo cáo cần thiết.
Data Science: Chạy những thử nghiệm trên tập dữ liệu để tìm ra những thông tin hữu ích của data đó.
Cách hoạt động của Machine Learning
Bước 1: Xác định vấn đề – chuyển đổi câu từ của khách hàng sao vấn đề của machine learning.
Bạn phải xác định được vấn đề của bạn cần giải quyết là gì?
- Supervised
- Un-supervised
- Classificaiton
- Regression
Bước 2: Dữ liệu: Xác định được kiểu dữ liệu đang có là gì?
Bước 3: Đánh giá
- Xác định được khi nào thì thuật toán chính xác.
- Những chỉ số cần quan tâm giúp chúng ta đánh giá dự án.
Bước 4: Đặc trưng dữ liệu (features)
- Dữ liệu của bạn có những features nào và bạn cần ử dụng features nào để xây dựng model? Từ đó biến các features thành patterns.
- Có 3 loại features chính:
- Categorical features: Có thể là giới tính, hay là yes/no.
- Continuous (hay numerical) features: Là một giá trị số như nhịp tin hoặc số lần thực thi một hành động.
- Derived features (là loại features mà bạn tạo ra từ data): Thường được gọi là feature engineering. Ví dụ khi có vận tốc và thời gian từ dữ liệu bạn đầu, bạn có thể tạo ra Derived feature là quãng đường di chuyển.
Bước 5: Models
Ngày này thì có rất nhiều các thư viện giúp bạn giải quyết các vấn đề, quan trọng là bạn phải xác định được khi nào thì bạn sử dụng model nào?
- Supervised Learning: (Input & Output) Data + Label → Classifications, Regressions Model,…
- Un-Supervised Learning: Only Input) Data → Clustering,…
- Reinforement Learning: Hoàn thiện và trao thưởng: Phải tìm ra cách để cập nhật scores của ML.
Bước 6: Thử nghiệm, đánh giá.
Hãy xem lại mô hình và dùng các phương pháp đánh giá thuật toán xem model mình đã đúng chưa, và độ chính xác là bao nhiêu?
Classification | Regression | Recommendation |
---|---|---|
Accuracy | Mean Absolute Error (MAE) | Precision at K |
Precision | Mean Squared Error (MSE) | |
Recall | Root Mean Squared Error (RMSE) |
Một số vần đề thường gặp trong việc xử lý machine learning.
Overfitting
Khi tập dữ liệu training data tốt những dữ liệu test thì mô hình tổng quát của bạn không tốt.
Giải pháp: Hải thử sử dụng mô hình đơn giản hơn và chắc chắn rằng dữ liệu test của bạn có cùng kiểu với data training.
Underfitting
Hiệu suất dữ liệu training kém do vậy ngay từ đầu dữ liệu của bạn đã không được học đúng cách. Dẫn tới việc underfitting.
Giải pháp: Hãy thử lại việc chia data training và data testing và thử điều chỉnh các tham số của dữ liệu.