WEKA là 1 trong những chính sách phần mềm viếtbằng Java phục vụ nghành học tập Java, máycùng khai thác dữ liệu Các khả năng chính• Một tập những dụng cụ tiền xử lý tài liệu, cácgiải thuật học sản phẩm công nghệ, khai phá tài liệu, cùng cáccách thức nghiên cứu tấn công giá• Giao diện giao diện (có cả nhân kiệt hiển thịhóa dữ liệu)• Môi trường chất nhận được so sánh những giải thuậthọc tập đồ vật và khai phá dữ liệu...


*

datasunny,85,85,FALSE,no Các ví dụovercast,83,86,FALSE,yes (instances) (instances)… Khai Phá Dữ Liệu 7WEKA Explorer: Tiền cách xử lý tài liệu Dữ liệu hoàn toàn có thể được nhập vào (imported) từ một tập tin gồm khuôn dạng: ARFF, CSV Dữ liệu cũng rất có thể được gọi vào từ một can hệ URL, hoặc xuất phát từ 1 cơ sở dữ liệu trải qua JDBC Các cách thức tiền cách xử lý tài liệu của WEKA được Call là filters • Rời rộc rạc hóa (Discretization) • Chuẩn hóa (Normalization) hóa (Normalization) • Lấy mẫu mã (Re-sampling) • Lựa chọn ở trong tính (Attribute selection) • Chuyển thay đổi (Transforming) cùng phối kết hợp (Combining) những thuộc tính đổ (T (C th tí • …→Hãy coi bối cảnh của WEKA Explorer… Khai Phá Dữ Liệu 8WEKA Explorer: Các cỗ phân lớp (1) Các cỗ phân lớp (Classifiers) của WEKA khớp ứng với các mô hình dự đoán thù các đại lượng loại định danh (phân lớp) hoặc các đại lượng loại số (hồi quy/dự đoán) Các kỹ thuật phân lớp được cung cấp bởi vì WEKA • Naïve Bayes classifier and Bayesian networks • Decision trees • Instance-based classifiers • Support vector machines • Neural networks •… → Hãy xem hình ảnh của WEKA Explorer… Knhì Phá Dữ Liệu 9WEKA Explorer: Các cỗ phân lớp (2) Lựa lựa chọn 1 bộ phân lớp (classifier) Lựa chọn những tùy chọn mang lại câu hỏi soát sổ (test options) • Use training set.

Bạn đang xem: Weka là gì

Sở phân các loại học được sẽ được Reviews bên trên trên tập học tập • Supplied test mix. Sử dụng một tập tài liệu không giống (với tập học) làm cho câu hỏi nhận xét • Cross-validation. Tập dữ liệu sẽ được chia hầu như thành k tập (folds) gồm kích thước dao động nhau, cùng cỗ phân các loại học được sẽ tiến hành review bởi phương pháp cross-validation • Percentage split. Chỉ định Phần Trăm phân chia tập tài liệu đối với câu hỏi nhận xét Khai Phá Dữ Liệu 10WEKA Explorer: Các cỗ phân lớp (3) More options… • đầu ra Model. Hiển thị cỗ phân lớp học tập được mã sản phẩm Hi th phân đượ • Output per-class stats. Hiển thị những ban bố thống kê về precision/reGọi so với mỗi lớp • Output entropy evaluation measures. Hiển thị review độ lếu tạp entropy evaluation measures Hi th giá bán độ (entropy) của tập tài liệu • Output confusion matrix. Hiển thị đọc tin về ma trận lỗi phân lớp (confusion matrix) đối với phân lớp học được • Store predictions for visualization. Các dự đoán của cục phân lớp được giữ lại trong bộ lưu trữ, để có thể được hiển thị tiếp nối • đầu ra predictions. Hiển thị chi tiết những dự đân oán so với tập khám nghiệm • Cost-sensitive evaluation. Các lỗi (của cục phân lớp) được khẳng định dựa trên ma trận chi phí (cost matrix) hướng đẫn • Random seed for XVal / % Split. Chỉ định cực hiếm random seed được sử dụng mang đến quy trình chọn lựa tự nhiên các ví dụ mang đến tập chất vấn ki Knhị Phá Dữ Liệu 11WEKA Explorer: Các bộ phân lớp (4) Classifier output hiển thị các lên tiếng đặc biệt • Run information. Các tùy lựa chọn đối với quy mô học tập, thương hiệu của tập information Các tùy ch đố mô hình thương hiệu dữ liệu, con số những ví dụ, các ở trong tính, với f.f. thí điểm • Classifier Model (full training set). Biểu diễn (dạng text) của bộ phân lớp học được phân đượ • Predictions on demo data. tin tức cụ thể về những dự đoán của cục phân lớp đối với tập soát sổ • Summary.

Xem thêm: Tôi Chu Du Khắp Thế Giới Mà Tôi Vẫn Ở Nguyên Một Chỗ Tôi Là Ai ?

Các thống kê lại về mức độ đúng chuẩn của bộ phân lớp, Cá th kê độ so với f.f. thể nghiệm sẽ lựa chọn • Detailed Accuracy By Class. tin tức chi tiết về cường độ chính xác của bộ phân lớp so với từng lớp đố • Confusion Matrix. Các thành phần của ma trận này trình bày con số các ví dụ kiểm tra (test instances) được phân lớp đúng và bị phân lớp không nên Knhị Phá Dữ Liệu 12WEKA Explorer: Các cỗ phân lớp (5) Result list hỗ trợ một vài công dụng có ích • Save sầu Model. Lưu lại quy mô khớp ứng với bộ phân lớp học tập model mô hình phân được vào trong một tập tin nhị phân (binary file) • Load mã sản phẩm. Đọc lại một quy mô đã được học tập trước đó xuất phát từ một tập tin nhị phân tin nh phân • Re-evaluate Mã Sản Phẩm on current demo phối. Đánh giá chỉ một mô hình (bộ phân lớp) học tập được trước đó đối với tập kiểm tra (test set) hi ngày nay • Visualize classifier errors. Hiển thị cửa sổ biểu vật dụng mô tả những kết quả của việc phân lớp Các ví dụ được phân lớp đúng đắn sẽ tiến hành biểu diễn bởi ký hiệu do dấu chéo cánh (x), còn những ví dụ bị phân lớp không đúng sẽ tiến hành màn biểu diễn bằng ký hiệu ô vuông ( ) •… Khai Phá Dữ Liệu 13WEKA Explorer: Các bộ phân các (1) Các bộ phân các (Cluster builders) của WEKA tương xứng cùng với các quy mô search những team của các ví dụ tương những quy mô tra cứu các đội những ví tự so với một tập tài liệu Các kỹ thuật phân cụm được cung cấp vị WEKA thu phân đượ tr WEKA • Expectation maximization (EM) • k-Means • ... Các bộ phân các hoàn toàn có thể được hiển thị tác dụng với đối chiếu cùng với những nhiều (lớp) thực tiễn (l th→Hãy xem đồ họa của WEKA Explorer … Knhì Phá Dữ Liệu 14WEKA Explorer: Các bộ phân nhiều (2) Lựa chọn một bộ phân các (cluster builder) Lựa chọn chính sách phân cụm (cluster mode) • Use training phối. Các các học tập được sẽ tiến hành đánh giá so với tập học • Supplied test phối. Sử dụng một tập dữ liệu không giống để soát sổ những các học tập được • Percentage split. Chỉ định phần trăm phân chia tập dữ liệu ban đầu mang đến bài toán desgin tập đánh giá • Classes lớn clusters evaluation. So sánh độ chính xác của những các to lớn c l So sánh học tập được so với các lớp được chỉ định và hướng dẫn Store clusters for visualization → Lưu lại những bộ phân lớp bên trong bộ nhớ, nhằm hoàn toàn có thể hiện thị lên tiếp nối Ignore attributes → Lựa lựa chọn các thuộc tính sẽ không còn tđê mê gia vào quá trình học tập những cụm Khai Phá Dữ Liệu 15WEKA Explorer: Luật kết hợpLựa lựa chọn một mô hình (giải thuật) phân phát hiện lý lẽ kết hợpAssociator output hiển thị những thông tin đặc biệt quan trọng quan • Run information. Các tùy lựa chọn so với quy mô phát hiện tại cơ chế phối kết hợp, thương hiệu của tập tài liệu, con số các ví dụ, những nằm trong tính • Associator Mã Sản Phẩm (full training set). Biểu diễn (dạng text) của tập các quy định phối hợp phân phát hiện tại được • Độ cung cấp về tối thiểu (minimum support) • Độ tin cẩn tối tđọc (minimum confidence) • Kích thước của các tập mục liên tục (large/frequent itemsets) • Liệt kê những vẻ ngoài kết hợp tìm kiếm được → Hãy xem đồ họa của WEKA Explorer… Knhì Phá Dữ Liệu 16WEKA Explorer: Lựa chọn nằm trong tính Để xác định các trực thuộc tính như thế nào là đặc biệt tốt nhất Trong WEKA, một phương pháp chọn lựa ở trong tính (attribute selection) bao hàm 2 phần: • Attribute Evaluator. Để xác minh một phương pháp Review mức Evaluator Để độ phù hợp của các thuộc tính Vd: correlation-based, wrapper, information gain, chi- squared,… • Search Method. Để khẳng định một cách thức (sản phẩm tự) xét những trực thuộc tính Vd: best-first, random, exhaustive, ranking,…→ Hãy xem hình ảnh của WEKA Explorer… Khai Phá Dữ Liệu 17WEKA Explorer: Hiển thị tài liệu Hiển thị tài liệu khôn cùng cần thiết trong thực tiễn Giúp để xác minh mức độ khó khăn của bài xích toán thù học WEKA rất có thể hiển thị • Mỗi ở trong tính hiếm hoi (1-D visualization) • Một cặp trực thuộc tính (2-D visualization) thu tính (2 visualization) Các giá trị (các nhãn) lớp khác biệt sẽ được hiển thị bằng những màu khác biệt Th Thanh hao trượt Jitter cung ứng câu hỏi hiển thị rõ ràng hơn, hi th Jitt Khi có vô số ví dụ (điểm) tập trung xung quanh một địa chỉ trên biểu thứ Tính năng phóng to/thu nhỏ (bằng cách tăng/áp dụng chính sách ưu đãi giảm giá trị của PlotSize và PointSize)→Hãy coi đồ họa của WEKA Explorer… Knhị Phá Dữ Liệu 18
Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *