Road Map Menjadi Data Scientist

Baca sebuah blog yang menarik, menjadi seorang Data Scientist/Data Miner. Beliau memberikan beberapa saran apa yang harus dilakukan, dibaca, dipelajari dan langkah-langkahnya untuk menjadi seorang Data Scientist. Artikel ini adalah artikel terjemahan semoga berguna.

Seorang Data Scientist seharusnya memiliki cukup dalam beberapa kemampuan : Statistik, Programming, Basis Data, Kemampuan Presentasi, Knowledge of Data Cleaning dan Transformasi.

Kemampuan yang harus dikuasai antara lain :

  1. Sekilas Pemahaman Statistik dan Data Pre-Processing
  2. Mengetahui Pitfalls : Harus peka mengenai bias yang berdampak pada analisis dan juga kesalahan umum dalam analisis statistik.
  3. Memahami cara kerja beberapa teknik Machine Learning/Statistik
  4. Time Series Forecasting
  5. Computer Programming (R, Java, Python, Scala)
  6. Basis Data (SQL, NoSQL)
  7. Web Scraping (Apache Nutch, Scrapy, JSoup)
  8. Text data

Statistical Understanding : Buku yang bagus untuk pengenalan adalah Fundamental Statistics for The Behavioral Sciences oleh Howell. Juga ada IBM SPSS for Introductory Statistics – Use and Interpretation dan IBM SPSS For Intermediate Statistics oleh Morgan et al. Meskipun semua buku lebih cenderung menggunakan software IBM SPSS, menyediakan pengenalan yang bagus mengenai konsep utama statistik.

Data Pre-Processing : Mengulang lagi (reiterasi) pemeriksaan dan identifikasi masalah pada data secara menyeluruh merupakan hal penting. Data Pre-processing merupakan penjaga terhadap kemungkinan penggunaan berlebihan data untuk Machine Learning / algoritma statistik tetapi juga transformasi data sedemikian rupa sehingga algoritma dapat mengekstrak / mengidentifikasi pola-pola yang lebih mudah. Beberapa buku yang direkomendasikan :

  • Data Preparation for Data Mining by Dorian Pyle
  • Mining Imperfect Data: Dealing with Contamination and Incomplete Records by Pearson
  • Exploratory Data Mining and Data Cleaning by Johnson and Dasu

Mengetahui Pitfalls : Terdapat banyak kasus untuk kesalahan penggunaan statistik (Statistical Misuse) dan bias yang berdampak pada pekerjaan kita, bahkan bisa secara tidak sadar. Big Data adalah teknologi lain dimana hati-hati dijamin. Contoh kasus ada di blog : Statistical Truisms in the Age of Big Data dan The Hidden biases of Big Data. Bacaan lain What are common fallacies or mistakes made by beginners in Statistics / Machine Learning / Data Analysis atau Identifying and Overcoming Common Data Mining Mistakes by SAS Institute

Buku yang disarankan :

  • Common Errors in Statistics (and how to avoid them) oleh P. Good and J. Harding

Jika kita adalah financial forcasting, buku yang disarankan adalah Evidence-Based Technical Analysis by David Aronson yang fokus pada bagaimana bias pada Data Mining (dan beberapa bias-bias kognitif) berdampak pada analisis kita.

Mengetahui bagaimana beberapa Machine Learning / Algoritma Statistik bekerja : Kita harus tahu kelebihan dan kekurangan tiap algoritma. Apakah algoritma yang kita dapat menangani noise dengan baik? Bagaimana jika di-scale? Apa jenis optimasi yang digunakan? Apakah memerlukan Tranformasi Data?  Berikut adalah contoh artikel mengenai fine-tuning Regression SVMs:
Practical Selection of SVM Parameters and Noise Estimation for SVM Regression 

Buku lain yang perlu diperhatikan adalah Applied Predictive Modelling by Khun, Johnson yang memiliki banyak contoh menggunakan caret R Package.

Ketika kita semakin mengetahui tentang Machine Learning/Algoritma Statistika, disarankan untuk membaca buku :

  • Data Mining : Practical Machine Learning Tools and Techniques by Witten and Frank
  • The Elements of Statistical Learning by Friedman, Hasting, Tibishirani

Time Series Forecasting : Dalam banyak situasi, kita mungkin harus mengidentifikasi dan memprediksi tren dari Data Time Series. Buku pengantar yang baik adalah Forecasting : Principles and Practice by Hyndman and Athanasopoulos yang berisi bagian pada Time Series Forecasting. Time Series Analysis and its Applications with R Examples by Shumway and Stoffer adalah buku lain dengan contoh praktis dan R code sebagai kakas bantunya.

Pengetahuan Pemrograman Komputer : Ini adalah kemampuan pentng lainnya. Hal ini memungkinan kita menggunakan beberapaData Science Tools/API yang membutuhkan biasanya kemampuan Java dan Python. Scala tampaknya menjadi menjadi bahasa pemrograman yang penting untuk Data Science. Pengetahuan R dianggap sebagai keharusan bisa. Memiliki kemampuan bahasa pemrograman mempermudah untuk belajar bahasa pemrograman baru yang dibutuhkan (baca Finding the right Skillset for Big Data Jobs). Tampaknya saat ini bahasa pemrograman Java yang paling dicari, berikutnya adalah Python dan SQL. Hal ini juga berguna melihat Google Trends tetapi menariknya Python tidak tersedia sebagai topik bahasa pemrograman pada saat penulisan.

Pengetahuan Basis Data : Pengalaman yang menulis bahwa kemampuan ini sangat penting. Lebih sering, Database Administrator atau IT lainnya yang seharusnya mengekstrak Data untuk kita dan terlalu sibuk melakukannya. Itu berarti bahwa kita harus memiliki pengetauan untuk menyambung ke basis data, mengoptimalkan query dan melakukan beberapa query/tranformasi untuk mendapatkan data yang kita inginkan pada format yang kita inginkan.

Web Scraping : Ini adalah kemampuan yang berguna untuk kita miliki. Ada banyak data berguna yang dapat kita akses jika kita tahu bagaimana menuliskan kode untuk mengakses dan mengekstrak informasi dari web. Kita harus mengetahui elemen HTML dan XPath. Beberapa contoh software yang dapat digunakan untuk ini :

  • Scrapy
  • Apache Nutch
  • JSoup

Text Data : data teks mengandung informasi berharga : Opini konsumen, sentimen, perhatian terhadap sesuatu. Information Extraction dan Text Analytics adalah teknologi yang penting bahwa Data Scientist idelanya tahu.

Information Extraction :

GATE
UIMA

 

Text Analytics :

The “tm” R Package
LingPipe
NLTK

Beberapa buku yang juga disarankan :

  • Introduction to Information Retrieval by Manning, Raghavan and Schütze
  • Handbook of Natural Language Processing by Indurkhya, Damerau (Editors)
  • The Text Mining HandBook – Advanced Approaches in Analyzing Unstructured Data by Feldman and Sanger

Dan terakhir terdapat beberapa buku yang seharusnya tidak terlewat oleh siapapun Data Scientist :

  • Data Mining and Statistics for Decision Making by Stéphane Tufféry (A personal favorite)
  • Introduction to Data Mining by Tan, Steinbach, Kumar 
  • Applied Predictive Modelling by Khun, Johnson
  • Data Mining with R – Learning with Case Studies by Torgo
  • Principles of Data Mining by Bramer

sumber

 

Perbedaan antara USB 2.0 dan USB 3.0

USB 2 dan 3

Gambar USB 2.0 dan USB 3.0.

USB sekarang sudah versi 3.0 Sekilas jika kita perhatikan hampir tidak ada perbedaan antara USB 2.0 dan USB 3.0. Secara fisik ukuran mereka sama. Sekilas yang membedakan satu USB 2.0 dan USB 3.0 adalah USB 2.0 memiliki bantalan berwarna putih sedangkan USB 3.0 memiliki bantalan berwarna biru. Apakah ini hanya akal-akalan tengkulak produsen USB agar pasar mereka meningkat dari orang-orang yang ingin meng-upgrade piranti keras? Apakah USB 2.0 bisa disambungkan ke USB 3.0 atau sebaliknya? atau mungkin timbul pertanyaan apa sih bedanya USB 1.0, USB 2.0 dan USB 3.0?

Pertama-tama kita samakan persepsi kita tentang USB. USB disini bukan Urban Service Boundary, United State Bank, atau Unicode Subset Bitfields. tp USB yang kita bahas disini adalah Universal Serial Bus. Pengertiannya USB adalah standar bus serial untuk perangkat penghubung. bisa komputer ke piranti bergerak atau piranti-piranti lainnya seperti flashdisk, HD eksternal, modem, dan lain-lain.

Secara umum, USB 3.0 memiliki kecepatan lebih tinggi sekitar 3.2Gbps (400MB/s) dan secara teori dapat mencapai 4.8Gpbs. Kecepatan ini 6 sampai 10 kali lebih cepat dari pada USB 2.0. karena USB 3.0 sudah mengadopsi teknologi transfer data dua arah (full duplex), sehingga dapat membaca dan menulis bersamaan (simultan). Kelebihan lain dari USB 3.0 adalah lebih hemat listrik karena tegangan listrik semula 4.4V menjadi 4V dan arusnya ditingkatkan jadi 150mA. USB 3.0 dapat digunakan 4-6 perangkat sekaligus. USB 3.0 juga mendukung idle, sleep dan suspend sehingga managemen power lebih baik.

Perangkat yang menggunakan USB 2.0 bisa disambungkan ke USB 3.0 namun perangkat USB 3.0 tidak bisa disambungkan ke USB 2.0. Misalnya kita memiliki flashdisk USB 2.0 dan kita ada komputer yang USB 3.0 nah itu bisa digunakan dengan performa terbaik USB 2.0. Namun jika flashdisk kita USB 3.0 ternyata komputer kita hanya tersedia port USB 2.0 maka pasti komputer tidak bisa mendeteksi flashdisk tersebut.

Dari kelebihan USB 3.0, masih menyisakan kekurangan. Kekurangan ini yang akhirnya menjadi  kelebihan dari USB 2.0. Kekurangan USB 3.0 antara lain :

  • Tidak didukung oleh sistem operasi Windows XP. Namun sudah di dukung Windows 7 ke atas dan Linux.
  • Penjang kabel maksimal 3 meter sedangkan USB 2.0 bisa mencapai 5 meter. (kekurangan ini bisa ditangani dengan menambahkan USB Hub.
  • Kecepatan pengiriman data tidak bisa mencapai kecepatan yang optimal di semua piranti. contohnya hardisk piringan hanya terbatas kecepatan piringan tersebut berputar.

 

9 jumlah kabel USB 3.0

9 jumlah kabel USB 3.0

Jika kita membongkar fisik dari kabelnya baik USB 2.0 dan USB 3.0 sama-sama memiliki 4 kabel. Namun dari sisi jack kabel USB 2.0 ditambah 4 jalur kabel untuk USB 3.0. Jadi USB 3.0 memiliki 9 kabel.

 

Sumber :

http://ermayu.blogspot.com/2012/09/perbedaan-usb-20-dengan-usb-30.html
https://id.wikipedia.org/wiki/Universal_Serial_Bus
https://id.wikipedia.org/wiki/Universal_Serial_Bus
http://blog.fastncheap.com/mengenal-perbedaan-usb-2-0-dengan-usb-3-0/

Psikologi warna untuk cat rumah

Sebenarnya agak heran juga waktu browsing di 9gag malah ada postingan dibawah ini. Herannya, lucunya dimana, tapi lumayan-lah informasinya siapa tau nanti punya rumah sendiri dan ingin mengoptimalkan suasana rumah dengan mencoba implementasikan warna dinding.

psikologi warna cat dinding

Bagi teman2 yang gak sengaja mampir mungkin bisa dicoba sewaktu-waktu. semoga bermanfaat infonya.

sumber

Troubleshooter Error Daemon Tools

setelah kemarin kenal malware, dan saya menggunakan anti-malware. memang kemarin saya memilih untuk mendelete semua yang aneh2. Malah sekarang daemon tools tidak bisa digunakan.

Mungkin yang sudah terlanjur mampir diblog ini namun belum mengetahui apa itu daemon tools. Sekilas saja, daemon tools adalah sebuat aplikasi yang digunakan untuk virtual cd atau dvd jadi kita tidak perlu menggunakan cd asli namun cukup softcopynya saja. Kelebihannya kita bisa menjaga keawetan optik dari device cd/dvd rom kita disamping itu lebih cepat bacanya.

Kembali lagi ke errornya daemon tools tidak bisa digunakan. report yang keluar

“this program requires at least windows 2000 with SPTD 1.6 or higher. Kerner debugger must be deactived”

nah setelah cari-cari di forum akhirnya menemukan penawarnya.

http://www.duplexsecure.com/downloads/

nah setelah didownload, tinggal dieksekusi kemudian silahkan me-restart komputer anda. dah setelah itu daemon tools sudah bisa bekerja normal kembali.

semoga membantu

menanggulangi terkena malware new tab google

mungkin diantara kita ada yang pernah buka google, kemudian diklik kanan -> new tab dan ternyata yang keluar bukan yang diharapkan malah ngelink ke situs lain.

mungkin sebelumnya kita akan langsung masuk ke salah satu situs berikut kemudian di redirect ke situs iklan atau bukan situs yang kita inginkan. diantara situs2 redirect tersebut :

/www.quick-search-results.com
http://itcg.21427.expand-search-goals.com

saya sendiri kurang tahu kenapa malware tersebut bisa bersarang di komputer saya. Jadi saya kurang paham bagaimana mengantisipasinya. mungkin dengan menggunakan antivirus khusus internet security. kalau yang membaca mengetahui bisa sharing ilmu. nah.

Nah ditulisan ini saya ingin sharing pengalaman. kebetulan cara yang saya gunakan sederhana. tinggal unduh antimalware dari kaspersky yang selama saya gunakan gratis. dan cukup untuk menghapus malware yang me-redirect ke dua situs diatas.

berikut link antimalware kaspersky
http://support.kaspersky.com/downloads/utils/tdsskiller.zip

Nah sekarang how to use TDSSKILLER
1. double klik file exe-nya. nanti akan muncul tampilan berikut tanpa prosedur installasi.

2. Utilities ini mendetect dua jenis file
a. malicious (the malware has been identified)
b. suspicious (the malware cannot be identified)

3. Jika malicious maka ada pilihan delete atau cure file malware tersebut kalau suspicious maka skip sj.

4. Jika memilih untuk mengkarantina. maka file tersebut tidak akan dihapus dan default penyimpanan file tersebut di C:\TDSSKiller_Quarantine\23.07.2010_15.31.43

5. Jika sudah selesai bisa di reboot komputernya

sekian semoga bermanfaat.

Cara buka extensi .CHM yang “address is not valid”

Salam, sudah lama gak ngisi blog ini.

sebagai catatan pribadi, sebelumnya pernah mengunduh/download suatu ebook yang berekstensi .chm. dan ketika dibuka hanya daftar isinya saja yang terlihat dan isi-nya hilang seperti ngelink ke suatu situs tetapi koneksi putus (“address is not valid”) .

nah bagaimana solusinya kebetulan saya browsing mendapatkan bahwa penyebabnya adalah sekuritas (Security update 896358) dari sistem operasinya dalam hal ini xp, vista dan windows server 2003. mengantisipasi hal yang tidak diinginkan dari ebook yang kita unduh tersebut.

ada dua metode untuk mengatasi hal tersebut.

Metode Pertama :

1. double klik file CHM

2. pada Open File-Security Warning dialog box

nah disana hilangkan centang check box yang tulisannya Always ask before opening this file .

3. klik open, inshaAllah bisa dibaca

Metode Kedua :

1. klik kanan file CHM, kemudian klik properties

2. klik unblock

3. double klik biasa file CHM untuk membuka.

sedikit curhat waktu sekitar 3 tahun yg lalu langkah yang saya lakukan adalah men-dekompile menjadi halaman-halaman html. sangat gak efektif  dan saya kira cara yang ini lebih efektif.