字符串拆分函数

splitByChar

将字符串拆分为由指定字符分隔的子字符串。使用由一个字符组成的常量字符串 separator。返回所选子字符串的数组。如果分隔符出现在字符串的开头或结尾，或者存在多个连续的分隔符，则可能会选择空子字符串。

语法

splitByChar(separator, s[, max_substrings]))

参数

separator — 应该只包含一个字符的分隔符。字符串。
s — 要拆分的字符串。字符串。
max_substrings — 可选的 Int64，默认为 0。如果 max_substrings > 0，则返回的数组最多包含 max_substrings 个子字符串，否则该函数将返回尽可能多的子字符串。

返回值

所选子字符串的数组。数组(字符串)。

在以下情况下，可能会选择空子字符串

分隔符出现在字符串的开头或结尾；
存在多个连续分隔符；
原始字符串 s 为空。

注意

参数 max_substrings 的行为从 ClickHouse v22.11 开始发生变化。在早于该版本的版本中，max_substrings > 0 意味着执行了 max_substring 个拆分，并且字符串的其余部分作为列表的最后一个元素返回。例如，

在 v22.10 中: SELECT splitByChar('=', 'a=b=c=d', 2); 返回 ['a','b','c=d']
在 v22.11 中: SELECT splitByChar('=', 'a=b=c=d', 2); 返回 ['a','b']

通过设置 splitby_max_substrings_includes_remaining_string 可以实现类似于 ClickHouse pre-v22.11 的行为 SELECT splitByChar('=', 'a=b=c=d', 2) SETTINGS splitby_max_substrings_includes_remaining_string = 1 -- ['a', 'b=c=d']

示例

SELECT splitByChar(',', '1,2,3,abcde');

结果

┌─splitByChar(',', '1,2,3,abcde')─┐
│ ['1','2','3','abcde']           │
└─────────────────────────────────┘

splitByString

将字符串拆分为由字符串分隔的子字符串。它使用由多个字符组成的常量字符串 separator 作为分隔符。如果字符串 separator 为空，它将把字符串 s 拆分为单字符数组。

语法

splitByString(separator, s[, max_substrings]))

参数

separator — 分隔符。字符串。
s — 要拆分的字符串。字符串。
max_substrings — 可选的 Int64，默认为 0。当 max_substrings > 0 时，返回的子字符串将不超过 max_substrings 个，否则该函数将返回尽可能多的子字符串。

返回值

所选子字符串的数组。数组(字符串)。

在以下情况下，可能会选择空子字符串

非空分隔符出现在字符串的开头或结尾；
存在多个连续的非空分隔符；
原始字符串 s 为空，而分隔符不为空。

注意

设置 splitby_max_substrings_includes_remaining_string (默认值：0) 控制当参数 max_substrings > 0 时，剩余字符串是否包含在结果数组的最后一个元素中。

示例

SELECT splitByString(', ', '1, 2 3, 4,5, abcde');

结果

┌─splitByString(', ', '1, 2 3, 4,5, abcde')─┐
│ ['1','2 3','4,5','abcde']                 │
└───────────────────────────────────────────┘

SELECT splitByString('', 'abcde');

结果

┌─splitByString('', 'abcde')─┐
│ ['a','b','c','d','e']      │
└────────────────────────────┘

splitByRegexp

将字符串拆分为由正则表达式分隔的子字符串。它使用正则表达式字符串 regexp 作为分隔符。如果 regexp 为空，它将把字符串 s 拆分为单字符数组。如果未找到与此正则表达式的匹配项，则不会拆分字符串 s。

语法

splitByRegexp(regexp, s[, max_substrings]))

参数

regexp — 正则表达式。常量。字符串或 FixedString。
s — 要拆分的字符串。字符串。
max_substrings — 可选的 Int64，默认为 0。当 max_substrings > 0 时，返回的子字符串将不超过 max_substrings 个，否则该函数将返回尽可能多的子字符串。

返回值

所选子字符串的数组。数组(字符串)。

在以下情况下，可能会选择空子字符串

非空正则表达式匹配项出现在字符串的开头或结尾；
存在多个连续的非空正则表达式匹配项；
原始字符串 s 为空，而正则表达式不为空。

注意

设置 splitby_max_substrings_includes_remaining_string (默认值：0) 控制当参数 max_substrings > 0 时，剩余字符串是否包含在结果数组的最后一个元素中。

示例

SELECT splitByRegexp('\\d+', 'a12bc23de345f');

结果

┌─splitByRegexp('\\d+', 'a12bc23de345f')─┐
│ ['a','bc','de','f']                    │
└────────────────────────────────────────┘

SELECT splitByRegexp('', 'abcde');

结果

┌─splitByRegexp('', 'abcde')─┐
│ ['a','b','c','d','e']      │
└────────────────────────────┘

splitByWhitespace

将字符串拆分为由空白字符分隔的子字符串。返回所选子字符串的数组。

语法

splitByWhitespace(s[, max_substrings]))

参数

s — 要拆分的字符串。字符串。
max_substrings — 可选的 Int64，默认为 0。当 max_substrings > 0 时，返回的子字符串将不超过 max_substrings 个，否则该函数将返回尽可能多的子字符串。

返回值

所选子字符串的数组。数组(字符串)。

注意

设置 splitby_max_substrings_includes_remaining_string (默认值：0) 控制当参数 max_substrings > 0 时，剩余字符串是否包含在结果数组的最后一个元素中。

示例

SELECT splitByWhitespace('  1!  a,  b.  ');

结果

┌─splitByWhitespace('  1!  a,  b.  ')─┐
│ ['1!','a,','b.']                    │
└─────────────────────────────────────┘

splitByNonAlpha

将字符串拆分为由空格和标点字符分隔的子字符串。返回所选子字符串的数组。

语法

splitByNonAlpha(s[, max_substrings]))

参数

s — 要拆分的字符串。字符串。
max_substrings — 可选的 Int64，默认为 0。当 max_substrings > 0 时，返回的子字符串将不超过 max_substrings 个，否则该函数将返回尽可能多的子字符串。

返回值

所选子字符串的数组。数组(字符串)。

注意

设置 splitby_max_substrings_includes_remaining_string (默认值：0) 控制当参数 max_substrings > 0 时，剩余字符串是否包含在结果数组的最后一个元素中。

示例

SELECT splitByNonAlpha('  1!  a,  b.  ');

┌─splitByNonAlpha('  1!  a,  b.  ')─┐
│ ['1','a','b']                     │
└───────────────────────────────────┘

arrayStringConcat

使用分隔符连接数组中列出的值的字符串表示形式。separator 是一个可选参数：一个常量字符串，默认设置为空字符串。返回字符串。

语法

arrayStringConcat(arr\[, separator\])

示例

SELECT arrayStringConcat(['12/05/2021', '12:50:00'], ' ') AS DateString;

结果

┌─DateString──────────┐
│ 12/05/2021 12:50:00 │
└─────────────────────┘

alphaTokens

从 a-z 和 A-Z 范围中选择连续字节的子字符串。返回子字符串的数组。

语法

alphaTokens(s[, max_substrings]))

别名：splitByAlpha

参数

s — 要拆分的字符串。字符串。
max_substrings — 可选的 Int64，默认为 0。当 max_substrings > 0 时，返回的子字符串将不超过 max_substrings 个，否则该函数将返回尽可能多的子字符串。

返回值

所选子字符串的数组。数组(字符串)。

注意

设置 splitby_max_substrings_includes_remaining_string (默认值：0) 控制当参数 max_substrings > 0 时，剩余字符串是否包含在结果数组的最后一个元素中。

示例

SELECT alphaTokens('abca1abc');

┌─alphaTokens('abca1abc')─┐
│ ['abca','abc']          │
└─────────────────────────┘

extractAllGroups

从正则表达式匹配的非重叠子字符串中提取所有组。

语法

extractAllGroups(text, regexp)

参数

text — 字符串或 FixedString。
regexp — 正则表达式。常量。字符串或 FixedString。

返回值

如果该函数找到至少一个匹配组，则返回按 group_id（1 到 N，其中 N 是 regexp 中捕获组的数量）聚类的 Array(Array(String)) 列。如果没有匹配组，则返回一个空数组。数组。

示例

SELECT extractAllGroups('abc=123, 8="hkl"', '("[^"]+"|\\w+)=("[^"]+"|\\w+)');

结果

┌─extractAllGroups('abc=123, 8="hkl"', '("[^"]+"|\\w+)=("[^"]+"|\\w+)')─┐
│ [['abc','123'],['8','"hkl"']]                                         │
└───────────────────────────────────────────────────────────────────────┘

ngrams

将 UTF-8 字符串拆分为 ngramsize 符号的 n-gram。

语法

ngrams(string, ngramsize)

参数

string — 字符串。字符串或 FixedString。
ngramsize — n-gram 的大小。 UInt。

返回值

包含 n-gram 的数组。数组(字符串)。

示例

SELECT ngrams('ClickHouse', 3);

结果

┌─ngrams('ClickHouse', 3)───────────────────────────┐
│ ['Cli','lic','ick','ckH','kHo','Hou','ous','use'] │
└───────────────────────────────────────────────────┘

tokens

使用非字母数字 ASCII 字符作为分隔符将字符串拆分为标记。

参数

input_string — 表示为字符串数据类型对象的任何字节集。

返回值

来自输入字符串的标记的最终数组。数组。

示例

SELECT tokens('test1,;\\ test2,;\\ test3,;\\   test4') AS tokens;

结果

┌─tokens────────────────────────────┐
│ ['test1','test2','test3','test4'] │
└───────────────────────────────────┘

splitByChar​

splitByString​

splitByRegexp​

splitByWhitespace​

splitByNonAlpha​

arrayStringConcat​

alphaTokens​

extractAllGroups​

ngrams​

tokens​

splitByChar

splitByString

splitByRegexp

splitByWhitespace

splitByNonAlpha

arrayStringConcat

alphaTokens

extractAllGroups

ngrams

tokens