順番に読み進めながら学べます

正規表現 re — 文字列のパターン検索と置換

Q: re.match(r"\d+", "abc 123")の結果として正しいのはどれですか？

None（先頭が数字ではないため）

Q: 正規表現を Python で書くときにr"..." の raw string を使う主な理由はどれですか？

バックスラッシュのエスケープが二重にならず、可読性が上がるから

re.match（先頭）・search（最初の一致）・findall（全件）の違い、\d \w \sや( )のグループキャプチャ、re.subの置換、re.compileの再利用を、ログ行とメールで実行します。

正規表現を扱うreモジュールで、「特定のパターンに合う文字列だけを抽出・置換する」操作を整理します。電話番号・メール・ログ行・URL の解析など、実プロジェクトで頻出する処理を 1 行で書けるようになります。

正規表現を試せるツール

正規表現は組み合わせが多くて、頭の中だけだと組み立てづらい構文です。書いたパターンが意図通りに当たるかは、ブラウザで動く正規表現エクストラクターで確認できます — テキストとパターンを入力すれば一致箇所がリアルタイムで見えるので、本記事の内容を読みながら横で試すと理解が進みます。

match と search と findall — 検索 3 種類の使い分け

re モジュールには文字列を検索する関数が複数あり、用途で 3 つを使い分けます。名前の対応を覚えておくと混乱しません — match = 先頭マッチ、search = 探す、findall = 全部見つける、です。具体的な検索範囲・戻り値・見つからないときの挙動は次の表で整理します。

関数	検索範囲	戻り値	見つからないとき
re.match	文字列の先頭のみ	Match オブジェクト	None
re.search	任意の位置で最初の一致	Match オブジェクト	None
re.findall	すべての一致	文字列のリスト	空のリスト []

re.matchとre.searchが返すMatch オブジェクト（一致した位置・文字列・グループ情報を持つオブジェクト）から、一致した文字列を取り出すには.group() メソッドを呼びます — m.group()またはm.group(0)でマッチ全体、後述のグループキャプチャを使うとm.group(1)で( ) で囲んだ部分だけを取り出せます。re.findallだけは戻り値が直接リストで、.group()を呼ぶ必要はありません。

re.match / search / findall の違い

matchは文字列の先頭にパターンが現れるかだけ見る。searchは任意の位置で最初の一致を返す。findallはすべての一致をリストで返す。

メタ文字	意味	例
\d	1 桁の数字 (0-9)	\d+ → 1 文字以上の数字
\w	1 文字の英数字 + アンダースコア	\w+ → ID やキーワード
\s	1 文字の空白 (スペース/タブ/改行)	区切り文字
.	改行以外の任意の 1 文字	ワイルドカード
*	直前を 0 回以上	a* → 空も OK
+	直前を 1 回以上	a+ → 1 文字以上
?	直前を 0 回または 1 回	省略可能
[abc]	a / b / c のいずれか 1 文字	選択
^ / $	文字列の先頭 / 末尾	アンカー

import re

text = "user_id: 12345, age: 30"

# match: 先頭から (\w+ は英数字の連続)
m = re.match(r"\w+", text)
print(m.group())            # user_id

# search: 任意の位置で最初の数字
s = re.search(r"\d+", text)
print(s.group())            # 12345

# findall: すべての数字
nums = re.findall(r"\d+", text)
print(nums)                 # ['12345', '30']

正規表現は raw string r"..." で書く

正規表現の中ではバックスラッシュ\を多用します。普通の文字列"\d"だとエスケープ解釈で消えることがあるので、先頭に r を付けた raw string r"\d"で書くのが安全です。エディタでも raw string はハイライトされやすく、可読性も上がります。

ログ行から ID と数値を抽出します。re.match / re.search / re.findallの 3 種類を 1 つの文字列で試して、結果の違いを観察します。

① re を読み込んでください

② text = "order_id: 9876, qty: 3, price: 1500"と設定してください

③ 文字列の先頭から英数字 + アンダースコアの連続を取り出してmatch: ◯◯の形で表示してください

④ 文字列の中から最初の連続する数字を取り出してsearch: ◯◯の形で表示してください

⑤ 文字列の中のすべての連続する数字をリストで取り出してfindall: ◯◯の形で表示してください

（正しく実行できれば解説が表示されます）

Python エディタ

コードを実行してください

グループキャプチャ — パターンの中の特定部分だけ取り出す

正規表現の( ) で囲んだ部分はキャプチャグループと呼ばれ、マッチ全体ではなくその部分だけを別々に取り出せます。例えばr"#(\d+) on (\d{4})-(\d{2})-(\d{2})"というパターンでログから注文番号と年月日を一気に分離する、といった用途で重宝します。

Matchオブジェクトの.group(N)メソッドで N 番目のグループ（1 始まり）が取り出せます。.group(0)または引数なしの.group()はマッチ全体を返します。

グループキャプチャの仕組み

正規表現の( ) で囲んだ部分がグループになり、.group(1) / .group(2)のように1 始まりの番号で取り出せる。.group(0)はマッチ全体を表す。

import re

text = "Order #1234 placed on 2024-03-15"

# パターンの意味:
#   #         → リテラルの # 記号
#   (\d+)     → 1 桁以上の数字 → group(1) 注文番号
#   placed on → リテラルの「placed on」
#   (\d{4})   → 4 桁の数字 → group(2) 年
#   (\d{2})   → 2 桁の数字 → group(3) 月
#   (\d{2})   → 2 桁の数字 → group(4) 日
m = re.search(r"#(\d+) placed on (\d{4})-(\d{2})-(\d{2})", text)
if m:
    print("全体:", m.group(0))      # #1234 placed on 2024-03-15
    print("注文番号:", m.group(1))   # 1234
    print("年:", m.group(2))         # 2024
    print("月:", m.group(3))         # 03
    print("日:", m.group(4))         # 15

Match が None のときに .group() を呼ぶとエラー

re.searchがパターンを見つけられなかったときはNoneを返します。その状態でm.group()を呼ぶとAttributeError: 'NoneType' object has no attribute 'group'でクラッシュします。必ず if m: で None チェックしてから.group()を呼ぶか、m := re.search(...) のセイウチ演算子で同時に判定できます。

メールアドレスの形式からユーザー名とドメインを分離します。グループキャプチャを使って、1 回の検索で 2 つのパーツを取り出します。

① re を読み込んでください

② text = "問い合わせは alice@example.com まで"と設定してください

③ メールアドレスのパターンでアット記号の左右をそれぞれグループとして取り出してください

- 左: 英数字とドット・アンダースコア・ハイフンの 1 文字以上

- 右: 同じく 1 文字以上、最後は.comなどのドメインを含む

④ マッチが見つかった場合、ユーザー名: ◯◯とドメイン: ◯◯の形でそれぞれ表示してください

Python エディタ

コードを実行してください

re.sub — パターンマッチで置換する

「ログから個人情報をマスキングしたい」「HTML タグを除去して本文だけ取り出したい」「全角・半角の空白をまとめて正規化したい」 — どれも「特定パターンを、別の形に書き換えたい」という置換のニーズです。文字列のreplaceだと固定文字列しか扱えませんが、re.subならパターンで指定できます。

re.sub(パターン, 置換文字列, 元文字列)は、パターンに一致した部分を置換文字列に書き換えた新しい文字列を返します。元の文字列は変わりません（Python の文字列は不変なので、必ず戻り値を受け取る形になります）。

re.sub の動き

パターンに一致した箇所を置換文字列で書き換えた新しい文字列を返す。元の文字列は不変で、戻り値で受け取るのが基本。

import re

# 電話番号の数字をマスク (\d 1 文字を * 1 文字に置換)
text = "連絡先: 03-1234-5678"
masked = re.sub(r"\d", "*", text)
print(masked)
# 連絡先: **-****-****

# HTML タグを除去して本文だけ取り出す
html = "<p>こんにちは <b>世界</b></p>"
plain = re.sub(r"<[^>]+>", "", html)
print(plain)
# こんにちは 世界

ログ行に含まれる電話番号の数字を全部``に置き換えてマスクします**。

① re を読み込んでください

② text = "連絡先 03-1234-5678 と 090-9999-8888 まで"と設定してください

③ re.subで*`\d` 1 文字を`` 1 文字に置換**して、結果をマスク後: ◯◯の形で表示してください

④ 元のtextが変わっていないことを元のまま: ◯◯の形で表示してください（re.subは新しい文字列を返すだけ）

Python エディタ

コードを実行してください

re.compile — パターンを再利用する

同じ正規表現を何度も使うとき、毎回re.search(r"...", text)のように書くと、内部でパターンの解析（コンパイル）が毎回走って無駄です。re.compile(パターン)でコンパイル済みパターンオブジェクトを一度作っておけば、pattern.search(...) / pattern.findall(...) / pattern.sub(...)のようにそのオブジェクトに対してメソッドを呼べて、コードも整理されて速度も改善します。

re.compile の使い方

re.compile(パターン)でパターンオブジェクトを作っておくと、.search / .findall / .subを何度でも呼び直せる。同じパターンを繰り返し使うときは必ずコンパイルする。

import re

# 同じ電話番号パターンを使い回す
phone_re = re.compile(r"\d{2,4}-\d{4}-\d{4}")

print(phone_re.findall("03-1234-5678 or 080-1111-2222"))
# ['03-1234-5678', '080-1111-2222']

print(phone_re.search("my phone is 03-9999-0000").group())
# 03-9999-0000

print(phone_re.sub("<電話番号>", "連絡先: 03-1234-5678 まで"))
# 連絡先: <電話番号> まで

電話番号パターンをre.compileで 1 回だけ作って、同じテキストに対して件数カウントと置換を続けて行います。

① re を読み込んでください

② text = "連絡先 03-1234-5678 と 090-9999-8888 まで"と設定してください

③ 市外局番 2〜4 桁 + 4 桁 + 4 桁の電話番号パターンをre.compileでコンパイルし、phone_reに入れてください

④ phone_re.findall(text)で何件あるかを数えて、電話番号の件数: ◯の形で表示してください

⑤ phone_re.subで電話番号全体を<電話番号>に置換して、置換後: ◯◯の形で表示してください

Python エディタ

コードを実行してください

まずは1問ずつ答えてみましょう。

Q1re.match(r"\d+", "abc 123")の結果として正しいのはどれですか？

Q2正規表現で1 文字以上の数字の連続を表すパターンとして正しいのはどれですか？

Q3re.search(r"(\w+)@(\w+)", "alice@example")の結果からドメイン側だけを取り出すのはどれですか？

Q4正規表現を Python で書くときにr"..." の raw string を使う主な理由はどれですか？

Python 応用の一覧へ戻る

正規表現 re — 文字列のパターン検索と置換

match と search と findall — 検索 3 種類の使い分け

Python エディタ

グループキャプチャ — パターンの中の特定部分だけ取り出す

Python エディタ

re.sub — パターンマッチで置換する

Python エディタ

re.compile — パターンを再利用する

Python エディタ

理解度チェック