最近ヘッドレスブラウザで、あるCGIページをスクレイピングするプログラムを作った。
対象のCGIページはいくつかのパラメータをPOSTメソッドで受け取り、結果を返すもので、このとき送信するパラメータを探すのに手間取ったので、簡単な調べ方を紹介する。
Chromeのデベロッパーツールを使う
まずは対象のページにアクセスし、デベロッパーツールを開こう。
ツールの上部タブから「Network」を選択する。

この状態でページをリロードすると、以下のような情報が表示される。

Name欄にページのメインとなるファイル名(index.phpなど)が表示されているので、これを選択する。
すると右側にさらに詳細の情報が表示される。
少し下にスクロールすると、Form Dataの項目があるはずだ。

ここにプログラムが受け取るパラメータの一覧が表示されているので、これを参考にヘッドレスブラウザでスクレイピングをおこなえば良い。