Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】GitHub Copilot でデータサイエンス: VS Code の拡張機能「Data Wrangler」を軽く試す(Iris のデータを利用)

2025年09月15日に「Qiita」が公開したITニュース「GitHub Copilot でデータサイエンス: VS Code の拡張機能「Data Wrangler」を軽く試す(Iris のデータを利用)」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

GitHub CopilotとVS CodeのData Wranglerを組み合わせ、データサイエンスを効率的に行う方法を解説する。イベントで紹介されたこの手法を、記事筆者がIrisデータで実際に試した事例を紹介する。

ITニュース解説

この記事は、GitHub CopilotというAIを活用したコード生成支援ツールと、VS Codeという開発環境の拡張機能であるData Wranglerを組み合わせることで、データサイエンスにおけるデータ前処理の作業を効率化する方法を試した内容を解説している。特に、データサイエンスの学習を始めたばかりの初心者システムエンジニアにとっても、これらのツールがいかに強力な味方となるかを具体的に示している。

まず、VS Code(Visual Studio Code)とは、多くのプログラマーやシステムエンジニアが利用する、非常に高機能なテキストエディタ兼開発環境のことである。プログラミング言語のコードを記述したり、プログラムを実行したり、デバッグ(不具合の原因を特定し修正する作業)を行ったりする際に使われる。このVS Codeは、さまざまな「拡張機能」を追加することで、その機能をさらに強化できる点が特徴だ。

次に、GitHub Copilotとは、AI(人工知能)がプログラマーの書いているコードの内容やコメントを読み取り、次に書くべきコードの候補を自動的に提案してくれる画期的なツールである。これにより、コードを手作業で全て記述する手間が省け、開発速度が向上したり、新しい技術やライブラリの使い方を学ぶ際の手助けになったりする。特に、どのようなコードを書けば良いか迷う初心者にとっては、強力な学習支援ツールともなり得る。

データサイエンスとは、大量のデータから有益な情報や傾向を発見し、ビジネスや社会の課題解決に役立てる学問や技術分野を指す。データサイエンスのプロセスには、データ収集、データ前処理、データ分析、結果の可視化といった多くの段階があるが、この中で「データ前処理」は非常に重要な工程である。なぜなら、生データはそのままでは使えないことが多く、分析に適した形に整形したり、欠損しているデータ(欠損値)を適切に処理したりする作業が必要不可欠だからだ。このデータ前処理は、全作業時間の多くを占めるとも言われるほど手間がかかるが、分析結果の精度を左右するため、手を抜くことはできない。

ここで登場するのが、VS Codeの拡張機能である「Data Wrangler」だ。Data Wranglerは、この手間のかかるデータ前処理作業を、視覚的かつ直感的に行えるように設計されている。記事では、機械学習の学習用データとしてよく使われる「Irisデータセット」(アヤメの花の測定データ)を例に、Data Wranglerの具体的な使い方を試している。

Data Wranglerの使い方は非常にシンプルで、まずCSV形式のデータファイルをVS Code上で開くと、Data Wranglerのビューが自動的に立ち上がる。このビューでは、データが表形式で表示され、データの全体像を視覚的に把握できる。記事で示される具体的な操作は以下の通りだ。 まず、読み込んだCSVファイルに余分な情報が含まれる場合、不要な行を削除する。例えば、データとは関係のないヘッダー行などがこれに当たる。Data Wranglerでは、マウス操作で簡単にこれらの行を選択し、削除できる。 次に、データの中には数字として扱いたいのに文字列として認識されている列がある場合、その「データ型」を適切なものに変換する。例えば、数値の列が誤ってテキストとして読み込まれた場合、これを整数型や浮動小数点型に変換する。これにより、その後の数値計算や統計分析が可能になる。 さらに、データの中には値が入力されていない「欠損値」が含まれることがある。欠損値の処理方法はいくつかあり、例えばその行を削除したり、平均値や中央値で補完したりする方法がある。Data Wranglerでは、これらの欠損値を特定し、どのように処理するかをメニューから選択して実行できる。 これらの前処理操作をData Wranglerの視覚的なインターフェースで行うと、その操作履歴が自動的に記録され、対応するPythonのコード(Pandasライブラリを使用)が生成される。この機能は、データ前処理の知識がまだ浅い初心者にとっては非常に役立つ。なぜなら、Data Wranglerで直感的に操作することで、それに対応するPythonコードがどのように書かれるべきかを同時に学べるからだ。

そして、このData WranglerとGitHub Copilotが連携することで、さらに強力なツールとなる。Data Wranglerが生成したPythonコードは、データ前処理の基盤となるが、GitHub Copilotは、そのコードに基づいてさらに分析を進めるための追加コードや、データの可視化のためのコードなどを提案してくれる。例えば、前処理が完了したPandas DataFrame(Pythonでデータを扱う際の主要なデータ構造)に対して、GitHub Copilotは「このデータを使ってグラフを描画するコード」や「統計量を計算するコード」などを、文脈に応じて自動で提案してくれるのだ。これにより、データサイエンスの初期段階だけでなく、その後の分析フェーズにおいても、プログラミングにかかる労力を大幅に削減できる。

このように、Data Wranglerを使って視覚的にデータを整形し、その結果生成されたコードをGitHub Copilotがさらに支援してくれることで、データサイエンスにおける最も手間のかかるデータ前処理のハードルが大きく下がる。システムエンジニアを目指す初心者がデータ分析に興味を持った際、複雑なプログラミング知識がなくても、データと向き合い、実際に手を動かしながら学習を進める強力な手段となるだろう。結果として、データから価値を引き出すというデータサイエンスの本質的な部分に、より集中できるようになることを示唆する内容となっている。

関連コンテンツ