MATLABでのParquetファイルの読み込み アイキャッチ画像
ビッグデータの世界で注目を集めるファイルフォーマットの一つがParquet。データを圧縮させて保持するだけでなく、読み込みやデータの抽出で高いパフォーマンスも誇ります。MATLABでもR2019aからparquetreadとparquetDatastoreなどが登場しましたが、圧縮形式に注意が必要です。
日立データ分析の教科書4.6 アイキャッチ画像
データサイエンスのビジネス用の書籍として役立つ日立製作所のLumada データサイエンスチームが書いたデータ分析の教科書。サンプルコードもあるのですが、うまく行かないつまづきどころもいくつかあります。ファイルのダウンロードやフォルダー置き場などを解説していきます。
Pythonのwordcloudでカスタム画像のスタイルを適用
テキストの登場頻度を可視化するワードクラウド。Pythonのwordcloudモジュールには、画像に合わせてテキストの色や形をプロットさせるスタイルを指定できます。ここでは公式サンプルのアリスの画像から、カスタム画像(オシドリの鳥)に合わせたプロットまでを紹介します。
MATLABでジオポリゴンの外郭を求める方法 アイキャッチ画像
地理空間を含むポリゴンデータが複数ある際に、ポリゴンの外郭を求める方法をMATLABのコードで紹介します。R2023a時点ではMapping Toolboxでそのままできないので、地理テーブルをgeotable2tableでテーブルに変換しMATLAB本体のunionを使うのがミソです。
東京都の港区の中にあるか外にあるか判定した結果
地理空間情報のポリゴンの中にあるか外にあるかを判定したいとき、MATLABではMapping ToolboxのR2022aで導入されたisinterior関数で簡単に計算できるようになりました。国勢調査の東京都のポリゴンを使って動かすコードの説明も付けています。
2015年の国勢調査より東京都の丁目毎の人口
シェープファイルを読み取って可視化するのって、プログラミングだと以外と面倒だったりしますが、MATLABではMapping Toolboxが非常に強力です。政府統計データ窓口のe-Statから国勢調査のシェープファイルをダウンロードして、可視化するまでの手順を示します。
新人研修で使用した「コンピュータシステムの基礎」
データサイエンティストでもプログラマーでもシステム開発者でも、処理のエラー分析や実行環境の改善をおこなう上で、コンピュータの基礎は必要なスキルと言っても過言ではないでしょう。ここでは私の新人研修時代に使った「コンピュータシステムの基礎」の思い出や情報処理技術者試験についてまとめています。
コロナ前後の生活での月間平均歩数
コロナ禍で在宅ワークになった方も多いと思いますが、気になるのは健康状態。この記事ではiPhoneとApple Watchでのヘルスケアデータを使って健康状態を解析する事例を紹介しています。コロナ前後での歩数の傾向分析、在宅ワークで運動量を増やすための工夫について書いています。