Use bulk_insert_iterator for aggragation clauses

IvoDD · IvoDD · commit c8a0745787b1 · 2025-09-17T12:16:05.000+03:00
diff --git a/cpp/arcticdb/processing/unsorted_aggregation.cpp b/cpp/arcticdb/processing/unsorted_aggregation.cpp
@@ -430,31 +430,36 @@ void MeanAggregatorData::aggregate(
 ) {
     fractions_.resize(unique_values);
     sparse_map_.resize(unique_values);
-    details::visit_type(input_column.column_->type().data_type(), [&input_column, &groups, this](auto col_tag) {
-        using col_type_info = ScalarTypeInfo<decltype(col_tag)>;
-        if constexpr (is_sequence_type(col_type_info::data_type)) {
-            util::raise_rte("String aggregations not currently supported");
-        } else if constexpr (is_empty_type(col_type_info::data_type)) {
-            return;
-        }
-        Column::for_each_enumerated<typename col_type_info::TDT>(
-                *input_column.column_,
-                [&groups, this](auto enumerating_it) {
-                    auto& fraction = fractions_[groups[enumerating_it.idx()]];
-                    if constexpr ((is_floating_point_type(col_type_info ::data_type))) {
-                        if (ARCTICDB_LIKELY(!std::isnan(enumerating_it.value()))) {
-                            fraction.numerator_ += static_cast<double>(enumerating_it.value());
-                            ++fraction.denominator_;
-                            sparse_map_.set(groups[enumerating_it.idx()]);
-                        }
-                    } else {
-                        fraction.numerator_ += static_cast<double>(enumerating_it.value());
-                        ++fraction.denominator_;
-                        sparse_map_.set(groups[enumerating_it.idx()]);
-                    }
+    util::BitSet::bulk_insert_iterator inserter(sparse_map_);
+    details::visit_type(
+            input_column.column_->type().data_type(),
+            [&input_column, &groups, &inserter, this](auto col_tag) {
+                using col_type_info = ScalarTypeInfo<decltype(col_tag)>;
+                if constexpr (is_sequence_type(col_type_info::data_type)) {
+                    util::raise_rte("String aggregations not currently supported");
+                } else if constexpr (is_empty_type(col_type_info::data_type)) {
+                    return;
                 }
-        );
-    });
+                Column::for_each_enumerated<typename col_type_info::TDT>(
+                        *input_column.column_,
+                        [&groups, &inserter, this](auto enumerating_it) {
+                            auto& fraction = fractions_[groups[enumerating_it.idx()]];
+                            if constexpr ((is_floating_point_type(col_type_info ::data_type))) {
+                                if (ARCTICDB_LIKELY(!std::isnan(enumerating_it.value()))) {
+                                    fraction.numerator_ += static_cast<double>(enumerating_it.value());
+                                    ++fraction.denominator_;
+                                    inserter = groups[enumerating_it.idx()];
+                                }
+                            } else {
+                                fraction.numerator_ += static_cast<double>(enumerating_it.value());
+                                ++fraction.denominator_;
+                                inserter = groups[enumerating_it.idx()];
+                            }
+                        }
+                );
+            }
+    );
+    inserter.flush();
 }
 
 SegmentInMemory MeanAggregatorData::finalize(const ColumnName& output_column_name, bool, size_t unique_values) {
@@ -500,25 +505,30 @@ void CountAggregatorData::aggregate(
 ) {
     aggregated_.resize(unique_values);
     sparse_map_.resize(unique_values);
-    details::visit_type(input_column.column_->type().data_type(), [&input_column, &groups, this](auto col_tag) {
-        using col_type_info = ScalarTypeInfo<decltype(col_tag)>;
-        Column::for_each_enumerated<typename col_type_info::TDT>(
-                *input_column.column_,
-                [&groups, this](auto enumerating_it) {
-                    if constexpr (is_floating_point_type(col_type_info::data_type)) {
-                        if (ARCTICDB_LIKELY(!std::isnan(enumerating_it.value()))) {
-                            auto& val = aggregated_[groups[enumerating_it.idx()]];
-                            ++val;
-                            sparse_map_.set(groups[enumerating_it.idx()]);
+    util::BitSet::bulk_insert_iterator inserter(sparse_map_);
+    details::visit_type(
+            input_column.column_->type().data_type(),
+            [&input_column, &groups, &inserter, this](auto col_tag) {
+                using col_type_info = ScalarTypeInfo<decltype(col_tag)>;
+                Column::for_each_enumerated<typename col_type_info::TDT>(
+                        *input_column.column_,
+                        [&groups, &inserter, this](auto enumerating_it) {
+                            if constexpr (is_floating_point_type(col_type_info::data_type)) {
+                                if (ARCTICDB_LIKELY(!std::isnan(enumerating_it.value()))) {
+                                    auto& val = aggregated_[groups[enumerating_it.idx()]];
+                                    ++val;
+                                    inserter = groups[enumerating_it.idx()];
+                                }
+                            } else {
+                                auto& val = aggregated_[groups[enumerating_it.idx()]];
+                                ++val;
+                                inserter = groups[enumerating_it.idx()];
+                            }
                         }
-                    } else {
-                        auto& val = aggregated_[groups[enumerating_it.idx()]];
-                        ++val;
-                        sparse_map_.set(groups[enumerating_it.idx()]);
-                    }
-                }
-        );
-    });
+                );
+            }
+    );
+    inserter.flush();
 }
 
 SegmentInMemory CountAggregatorData::finalize(const ColumnName& output_column_name, bool, size_t unique_values) {
@@ -561,11 +571,12 @@ void FirstAggregatorData::aggregate(
             using GlobalRawType = typename GlobalTypeDescriptorTag::DataTypeTag::raw_type;
             aggregated_.resize(sizeof(GlobalRawType) * unique_values);
             sparse_map_.resize(unique_values);
+            util::BitSet::bulk_insert_iterator inserter(sparse_map_);
             auto col_data = input_column.column_->data();
             auto out_ptr = reinterpret_cast<GlobalRawType*>(aggregated_.data());
             details::visit_type(
                     input_column.column_->type().data_type(),
-                    [this, &groups, &out_ptr, &col_data](auto col_tag) {
+                    [this, &groups, &out_ptr, &col_data, &inserter](auto col_tag) {
                         using ColumnTagType = std::decay_t<decltype(col_tag)>;
                         using ColumnType = typename ColumnTagType::raw_type;
                         auto groups_pos = 0;
@@ -580,19 +591,20 @@ void FirstAggregatorData::aggregate(
                                     if (is_first_group_el || std::isnan(static_cast<ColumnType>(val))) {
                                         groups_cache_.insert(groups[groups_pos]);
                                         val = GlobalRawType(*ptr);
-                                        sparse_map_.set(groups[groups_pos]);
+                                        inserter = groups[groups_pos];
                                     }
                                 } else {
                                     if (is_first_group_el) {
                                         groups_cache_.insert(groups[groups_pos]);
                                         val = GlobalRawType(*ptr);
-                                        sparse_map_.set(groups[groups_pos]);
+                                        inserter = groups[groups_pos];
                                     }
                                 }
                             }
                         }
                     }
             );
+            inserter.flush();
         });
     }
 }
@@ -641,11 +653,12 @@ void LastAggregatorData::aggregate(
             using GlobalRawType = typename GlobalTypeDescriptorTag::DataTypeTag::raw_type;
             aggregated_.resize(sizeof(GlobalRawType) * unique_values);
             sparse_map_.resize(unique_values);
+            util::BitSet::bulk_insert_iterator inserter(sparse_map_);
             auto col_data = input_column.column_->data();
             auto out_ptr = reinterpret_cast<GlobalRawType*>(aggregated_.data());
             details::visit_type(
                     input_column.column_->type().data_type(),
-                    [&groups, &out_ptr, &col_data, this](auto col_tag) {
+                    [&groups, &out_ptr, &col_data, &inserter, this](auto col_tag) {
                         using ColumnTagType = std::decay_t<decltype(col_tag)>;
                         using ColumnType = typename ColumnTagType::raw_type;
                         auto groups_pos = 0;
@@ -662,16 +675,17 @@ void LastAggregatorData::aggregate(
                                     if (is_first_group_el || !std::isnan(static_cast<ColumnType>(curr))) {
                                         groups_cache_.insert(groups[groups_pos]);
                                         val = curr;
-                                        sparse_map_.set(groups[groups_pos]);
+                                        inserter = groups[groups_pos];
                                     }
                                 } else {
                                     val = GlobalRawType(*ptr);
-                                    sparse_map_.set(groups[groups_pos]);
+                                    inserter = groups[groups_pos];
                                 }
                             }
                         }
                     }
             );
+            inserter.flush();
         });
     }
 }
diff --git a/python/tests/unit/arcticdb/version_store/test_append.py b/python/tests/unit/arcticdb/version_store/test_append.py
@@ -755,7 +755,7 @@ def test_append_series_with_different_row_range_index_name(lmdb_version_store_dy
 @pytest.mark.xfail(reason="Wrong normalization metadata update. Monday ref: 10029194063")
 def test_append_no_columns(lmdb_version_store_dynamic_schema_v1):
     lib = lmdb_version_store_dynamic_schema_v1
-    to_write = pd.DataFrame({"col" : [1, 2, 3]}, index=pd.date_range(pd.Timestamp(2025, 1, 1), periods=3))
+    to_write = pd.DataFrame({"col": [1, 2, 3]}, index=pd.date_range(pd.Timestamp(2025, 1, 1), periods=3))
     to_append = pd.DataFrame({}, index=pd.date_range(pd.Timestamp(2025, 1, 4), periods=3))
     lib.write("sym", to_write)
     lib.append("sym", to_append)
diff --git a/python/tests/unit/arcticdb/version_store/test_arrow.py b/python/tests/unit/arcticdb/version_store/test_arrow.py
@@ -769,40 +769,43 @@ def test_resample_empty_slices(lmdb_version_store_dynamic_schema_v1):
     lib = lmdb_version_store_dynamic_schema_v1
     lib.set_output_format(OutputFormat.EXPERIMENTAL_ARROW)
     sym = "sym"
+
     def gen_df(start, num_rows, with_columns=True):
         data = {}
         if with_columns:
             data = {
-                "mean_col": np.arange(start, start+num_rows, dtype=np.float64),
-                "sum_col": np.arange(start, start+num_rows, dtype=np.float64),
-                "min_col": np.arange(start, start+num_rows, dtype=np.float64),
-                "max_col": np.arange(start, start+num_rows, dtype=np.float64),
-                "count_col": np.arange(start, start+num_rows, dtype=np.float64),
+                "mean_col": np.arange(start, start + num_rows, dtype=np.float64),
+                "sum_col": np.arange(start, start + num_rows, dtype=np.float64),
+                "min_col": np.arange(start, start + num_rows, dtype=np.float64),
+                "max_col": np.arange(start, start + num_rows, dtype=np.float64),
+                "count_col": np.arange(start, start + num_rows, dtype=np.float64),
             }
         index = pd.date_range(pd.Timestamp(2025, 1, start), periods=num_rows)
         return pd.DataFrame(data, index=index)
 
     slices = [
         gen_df(1, 3),
-        gen_df(4, 2, False), # We expect an entirely missing slice 4th-5th
+        gen_df(4, 2, False),  # We expect an entirely missing slice 4th-5th
         gen_df(6, 3),
-        gen_df(9, 5, False), # We expect two missing slices 10th-11th and 12th-13th
+        gen_df(9, 5, False),  # We expect two missing slices 10th-11th and 12th-13th
         gen_df(14, 2),
-        gen_df(16, 2, False), # We expect one missing slice 16th-17th
+        gen_df(16, 2, False),  # We expect one missing slice 16th-17th
         # TODO: If we don't finish with an append with columns our normalization metadata will be broken
-        gen_df(18, 1)
+        gen_df(18, 1),
     ]
     for df_slice in slices:
         lib.append(sym, df_slice, write_if_missing=True)
 
     q = QueryBuilder()
-    q.resample("2d").agg({
-        "mean_col": "mean",
-        "sum_col": "sum",
-        "min_col": "min",
-        "max_col": "max",
-        "count_col": "count",
-    })
+    q.resample("2d").agg(
+        {
+            "mean_col": "mean",
+            "sum_col": "sum",
+            "min_col": "min",
+            "max_col": "max",
+            "count_col": "count",
+        }
+    )
 
     table = lib.read(sym, query_builder=q).data
     # sum_col is correctly filled with 0s instead of nulls