Baca sebuah blog yang menarik, menjadi seorang Data Scientist/Data Miner. Beliau memberikan beberapa saran apa yang harus dilakukan, dibaca, dipelajari dan langkah-langkahnya untuk menjadi seorang Data Scientist. Artikel ini adalah artikel terjemahan semoga berguna.
Seorang Data Scientist seharusnya memiliki cukup dalam beberapa kemampuan : Statistik, Programming, Basis Data, Kemampuan Presentasi, Knowledge of Data Cleaning dan Transformasi.
Kemampuan yang harus dikuasai antara lain :
- Sekilas Pemahaman Statistik dan Data Pre-Processing
- Mengetahui Pitfalls : Harus peka mengenai bias yang berdampak pada analisis dan juga kesalahan umum dalam analisis statistik.
- Memahami cara kerja beberapa teknik Machine Learning/Statistik
- Time Series Forecasting
- Computer Programming (R, Java, Python, Scala)
- Basis Data (SQL, NoSQL)
- Web Scraping (Apache Nutch, Scrapy, JSoup)
- Text data
Statistical Understanding : Buku yang bagus untuk pengenalan adalah Fundamental Statistics for The Behavioral Sciences oleh Howell. Juga ada IBM SPSS for Introductory Statistics – Use and Interpretation dan IBM SPSS For Intermediate Statistics oleh Morgan et al. Meskipun semua buku lebih cenderung menggunakan software IBM SPSS, menyediakan pengenalan yang bagus mengenai konsep utama statistik.
Data Pre-Processing : Mengulang lagi (reiterasi) pemeriksaan dan identifikasi masalah pada data secara menyeluruh merupakan hal penting. Data Pre-processing merupakan penjaga terhadap kemungkinan penggunaan berlebihan data untuk Machine Learning / algoritma statistik tetapi juga transformasi data sedemikian rupa sehingga algoritma dapat mengekstrak / mengidentifikasi pola-pola yang lebih mudah. Beberapa buku yang direkomendasikan :
- Data Preparation for Data Mining by Dorian Pyle
- Mining Imperfect Data: Dealing with Contamination and Incomplete Records by Pearson
- Exploratory Data Mining and Data Cleaning by Johnson and Dasu
Mengetahui Pitfalls : Terdapat banyak kasus untuk kesalahan penggunaan statistik (Statistical Misuse) dan bias yang berdampak pada pekerjaan kita, bahkan bisa secara tidak sadar. Big Data adalah teknologi lain dimana hati-hati dijamin. Contoh kasus ada di blog : Statistical Truisms in the Age of Big Data dan The Hidden biases of Big Data. Bacaan lain What are common fallacies or mistakes made by beginners in Statistics / Machine Learning / Data Analysis atau Identifying and Overcoming Common Data Mining Mistakes by SAS Institute
Buku yang disarankan :
- Common Errors in Statistics (and how to avoid them) oleh P. Good and J. Harding
Jika kita adalah financial forcasting, buku yang disarankan adalah Evidence-Based Technical Analysis by David Aronson yang fokus pada bagaimana bias pada Data Mining (dan beberapa bias-bias kognitif) berdampak pada analisis kita.
Mengetahui bagaimana beberapa Machine Learning / Algoritma Statistik bekerja : Kita harus tahu kelebihan dan kekurangan tiap algoritma. Apakah algoritma yang kita dapat menangani noise dengan baik? Bagaimana jika di-scale? Apa jenis optimasi yang digunakan? Apakah memerlukan Tranformasi Data? Berikut adalah contoh artikel mengenai fine-tuning Regression SVMs:
Practical Selection of SVM Parameters and Noise Estimation for SVM Regression
Buku lain yang perlu diperhatikan adalah Applied Predictive Modelling by Khun, Johnson yang memiliki banyak contoh menggunakan caret R Package.
Ketika kita semakin mengetahui tentang Machine Learning/Algoritma Statistika, disarankan untuk membaca buku :
- Data Mining : Practical Machine Learning Tools and Techniques by Witten and Frank
- The Elements of Statistical Learning by Friedman, Hasting, Tibishirani
Time Series Forecasting : Dalam banyak situasi, kita mungkin harus mengidentifikasi dan memprediksi tren dari Data Time Series. Buku pengantar yang baik adalah Forecasting : Principles and Practice by Hyndman and Athanasopoulos yang berisi bagian pada Time Series Forecasting. Time Series Analysis and its Applications with R Examples by Shumway and Stoffer adalah buku lain dengan contoh praktis dan R code sebagai kakas bantunya.
Pengetahuan Pemrograman Komputer : Ini adalah kemampuan pentng lainnya. Hal ini memungkinan kita menggunakan beberapaData Science Tools/API yang membutuhkan biasanya kemampuan Java dan Python. Scala tampaknya menjadi menjadi bahasa pemrograman yang penting untuk Data Science. Pengetahuan R dianggap sebagai keharusan bisa. Memiliki kemampuan bahasa pemrograman mempermudah untuk belajar bahasa pemrograman baru yang dibutuhkan (baca Finding the right Skillset for Big Data Jobs). Tampaknya saat ini bahasa pemrograman Java yang paling dicari, berikutnya adalah Python dan SQL. Hal ini juga berguna melihat Google Trends tetapi menariknya Python tidak tersedia sebagai topik bahasa pemrograman pada saat penulisan.
Pengetahuan Basis Data : Pengalaman yang menulis bahwa kemampuan ini sangat penting. Lebih sering, Database Administrator atau IT lainnya yang seharusnya mengekstrak Data untuk kita dan terlalu sibuk melakukannya. Itu berarti bahwa kita harus memiliki pengetauan untuk menyambung ke basis data, mengoptimalkan query dan melakukan beberapa query/tranformasi untuk mendapatkan data yang kita inginkan pada format yang kita inginkan.
Web Scraping : Ini adalah kemampuan yang berguna untuk kita miliki. Ada banyak data berguna yang dapat kita akses jika kita tahu bagaimana menuliskan kode untuk mengakses dan mengekstrak informasi dari web. Kita harus mengetahui elemen HTML dan XPath. Beberapa contoh software yang dapat digunakan untuk ini :
- Scrapy
- Apache Nutch
- JSoup
Text Data : data teks mengandung informasi berharga : Opini konsumen, sentimen, perhatian terhadap sesuatu. Information Extraction dan Text Analytics adalah teknologi yang penting bahwa Data Scientist idelanya tahu.
Information Extraction :
Text Analytics :
The “tm” R Package
–LingPipe
–NLTK
Beberapa buku yang juga disarankan :
- Introduction to Information Retrieval by Manning, Raghavan and Schütze
- Handbook of Natural Language Processing by Indurkhya, Damerau (Editors)
- The Text Mining HandBook – Advanced Approaches in Analyzing Unstructured Data by Feldman and Sanger
Dan terakhir terdapat beberapa buku yang seharusnya tidak terlewat oleh siapapun Data Scientist :
- Data Mining and Statistics for Decision Making by Stéphane Tufféry (A personal favorite)
- Introduction to Data Mining by Tan, Steinbach, Kumar
- Applied Predictive Modelling by Khun, Johnson
- Data Mining with R – Learning with Case Studies by Torgo
- Principles of Data Mining by Bramer