C语言中正则表达式怎么匹配C语言regex库的函数详解

来源:这里教程网 时间:2026-02-21 16:56:24 作者:

c语言中使用正则表达式需借助regex库。1. 首先包含头文件;2. 使用regcomp函数编译正则表达式,将正则表达式字符串编译为可执行结构体;3. 利用regexec函数执行匹配,支持提取子字符串;4. 最后调用regfree函数释放内存避免泄漏。特殊字符需双重转义,标志位控制语法特性,如reg_extended启用扩展语法。错误处理通过regerror获取编译或匹配错误信息。性能优化包括简化表达式、使用锚点、减少回溯及复用编译结果。

C语言中正则表达式怎么匹配C语言regex库的函数详解

C语言中使用正则表达式,需要借助regex库。核心在于理解

regcomp
regexec
regfree
这三个函数,以及
regex_t
结构体。别指望像Python那样一行代码搞定,C语言的实现相对底层,需要更多手动操作,但也更灵活。

C语言中正则表达式怎么匹配C语言regex库的函数详解

解决方案

C语言中正则表达式怎么匹配C语言regex库的函数详解

首先,你需要包含

<regex.h></regex.h>
头文件。然后,使用
regcomp
函数编译你的正则表达式。这个函数会将正则表达式字符串编译成一个可以被
regexec
函数使用的结构体。

立即学习“C语言免费学习笔记(深入)”;

#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
int main() {
  regex_t regex;
  int ret;
  const char *pattern = "hello[[:space:]]+world"; // 匹配 "hello" 后面跟着一个或多个空格,然后是 "world"
  const char *text = "hello   world";
  // 编译正则表达式
  ret = regcomp(&regex, pattern, REG_EXTENDED); // REG_EXTENDED 使用扩展正则表达式语法
  if (ret) {
    fprintf(stderr, "Could not compile regex
");
    exit(1);
  }
  // 执行正则表达式匹配
  ret = regexec(&regex, text, 0, NULL, 0); // 0, NULL, 0 表示我们不关心匹配的细节,只关心是否匹配
  if (!ret) {
    printf("Match found!
");
  } else if (ret == REG_NOMATCH) {
    printf("No match found.
");
  } else {
    char errbuf[100];
    regerror(ret, &regex, errbuf, sizeof(errbuf));
    fprintf(stderr, "Regex match failed: %s
", errbuf);
    exit(1);
  }
  // 释放正则表达式
  regfree(&regex);
  return 0;
}

regcomp
的第二个参数是你的正则表达式字符串,第三个参数是标志位,例如
REG_EXTENDED
表示使用扩展正则表达式语法,
REG_ICASE
表示忽略大小写。

C语言中正则表达式怎么匹配C语言regex库的函数详解

接下来,使用

regexec
函数执行匹配。这个函数会在给定的字符串中搜索与编译后的正则表达式匹配的部分。

regexec
的第二个参数是要匹配的字符串。后面的参数用于存储匹配的细节,例如匹配的起始位置和长度。如果我们只关心是否匹配,可以将这些参数设置为 0 和 NULL。

最后,使用

regfree
函数释放
regex_t
结构体占用的内存。这是一个很重要的步骤,否则会导致内存泄漏。

如何处理正则表达式中的特殊字符?

C语言的正则表达式需要对一些特殊字符进行转义。例如,如果你想匹配一个点号(

.
),你需要使用
.
。如果你想匹配一个反斜杠(
),你需要使用 
\
。而且,C语言字符串本身也需要转义,所以要匹配一个反斜杠,你可能需要写成
"\\"
。这有点反人类,但没办法,C语言就是这样。

此外,

regcomp
函数的标志位可以影响正则表达式的解析方式。例如,
REG_EXTENDED
标志位允许你使用更现代的正则表达式语法,例如
+
?

#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
int main() {
  regex_t regex;
  int ret;
  const char *pattern = "a\\b"; // 匹配 "a"
  const char *text = "a\b";
  ret = regcomp(&regex, pattern, 0);
  if (ret) {
    fprintf(stderr, "Could not compile regex
");
    exit(1);
  }
  ret = regexec(&regex, text, 0, NULL, 0);
  if (!ret) {
    printf("Match found!
");
  } else if (ret == REG_NOMATCH) {
    printf("No match found.
");
  } else {
    char errbuf[100];
    regerror(ret, &regex, errbuf, sizeof(errbuf));
    fprintf(stderr, "Regex match failed: %s
", errbuf);
    exit(1);
  }
  regfree(&regex);
  return 0;
}

如何提取匹配到的子字符串?

如果你想提取匹配到的子字符串,你需要使用

regexec
函数的第三个和第四个参数。第三个参数是
size_t nmatch
,表示你想提取的子字符串的数量。第四个参数是
regmatch_t pmatch[]
,是一个
regmatch_t
类型的数组,用于存储匹配到的子字符串的起始位置和长度。

regmatch_t
结构体有两个成员:
rm_so
rm_eo
,分别表示子字符串的起始位置和结束位置。

#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
int main() {
  regex_t regex;
  int ret;
  const char *pattern = "hello([[:space:]]+)(world)"; // 匹配 "hello" 后面跟着一个或多个空格,然后是 "world",并捕获空格和 "world"
  const char *text = "hello   world";
  regmatch_t pmatch[3]; // 我们要捕获 3 个子字符串:整个匹配、空格、"world"
  size_t nmatch = 3;
  ret = regcomp(&regex, pattern, REG_EXTENDED);
  if (ret) {
    fprintf(stderr, "Could not compile regex
");
    exit(1);
  }
  ret = regexec(&regex, text, nmatch, pmatch, 0);
  if (!ret) {
    printf("Match found!
");
    for (int i = 0; i < nmatch; i++) {
      printf("Match %d: start=%ld, end=%ld
", i, (long)pmatch[i].rm_so, (long)pmatch[i].rm_eo);
      if (pmatch[i].rm_so != -1 && pmatch[i].rm_eo != -1) {
          char *substring = (char*)malloc(pmatch[i].rm_eo - pmatch[i].rm_so + 1);
          strncpy(substring, text + pmatch[i].rm_so, pmatch[i].rm_eo - pmatch[i].rm_so);
          substring[pmatch[i].rm_eo - pmatch[i].rm_so] = '';
          printf("Substring %d: %s
", i, substring);
          free(substring);
      }
    }
  } else if (ret == REG_NOMATCH) {
    printf("No match found.
");
  } else {
    char errbuf[100];
    regerror(ret, &regex, errbuf, sizeof(errbuf));
    fprintf(stderr, "Regex match failed: %s
", errbuf);
    exit(1);
  }
  regfree(&regex);
  return 0;
}

注意,

pmatch[0]
存储的是整个匹配的起始位置和结束位置,
pmatch[1]
存储的是第一个捕获组的起始位置和结束位置,以此类推。如果某个捕获组没有匹配到任何内容,
rm_so
rm_eo
的值都会是 -1。

如何处理正则表达式编译错误?

regcomp
函数如果编译失败,会返回一个非零值。你可以使用
regerror
函数获取错误信息。

#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
int main() {
  regex_t regex;
  int ret;
  const char *pattern = "hello[[:space:]+world"; // 错误的正则表达式:缺少一个 ]
  ret = regcomp(&regex, pattern, REG_EXTENDED);
  if (ret) {
    char errbuf[100];
    regerror(ret, &regex, errbuf, sizeof(errbuf));
    fprintf(stderr, "Regex compilation failed: %s
", errbuf);
    exit(1);
  }
  regfree(&regex);
  return 0;
}

regerror
函数的第一个参数是
regcomp
函数的返回值,第二个参数是指向
regex_t
结构体的指针,第三个参数是用于存储错误信息的缓冲区,第四个参数是缓冲区的大小。

如何优化正则表达式的性能?

正则表达式的性能可能是一个问题,尤其是在处理大量数据时。以下是一些优化正则表达式性能的技巧:

避免使用复杂的正则表达式。 简单的正则表达式通常比复杂的正则表达式更快。 尽可能使用字面量。 字面量比正则表达式更快。例如,
"hello"
"h.llo"
更快。
使用锚点。 锚点可以告诉正则表达式引擎从字符串的特定位置开始搜索。例如,
"^hello"
只会在字符串的开头搜索
"hello"
避免回溯。 回溯是正则表达式引擎尝试不同的匹配方式的过程。回溯可能会很慢。你可以使用非贪婪匹配或原子组来避免回溯。 编译正则表达式一次,多次使用。 编译正则表达式是一个耗时的操作。如果你需要多次使用同一个正则表达式,最好只编译一次,然后多次使用编译后的正则表达式。 考虑使用其他工具。 如果正则表达式的性能仍然不够好,可以考虑使用其他的字符串处理工具,例如
strstr
memchr
。有时候,简单的字符串处理函数比复杂的正则表达式更快。

总的来说,C语言的正则表达式库虽然使用起来比较繁琐,但功能强大且灵活。理解

regcomp
regexec
regfree
这三个函数,以及
regex_t
结构体,你就可以在C语言中使用正则表达式来处理各种字符串匹配问题。记住,及时释放内存,避免内存泄漏!

相关推荐